Implementasi Global Tresholding Metode Otsu dan Tesseract Engine dengan Algoritma Horspool untuk Menerjemahkan Kata Berbahasa Jepang Jenis Katakana
2
BAB I
PENDAHULUAN
Bab ini akan menjelaskan mengenai latar belakang penelitian judul skripsi
―Implementasi Global Tresholding Metode Otsu Dan OCR Tesseract Engine
Dengan Algoritma Horspool Untuk Menerjemahkan Kata Berbahasa Jepang Jenis
Katakana‖. Rumusan masalah, batasan masalah, tujuan penelitian, manfaat
penelitian, metode penelitian, tinjauan pustaka, dan sistematika penulisan skripsi.
1.1. Latar Belakang
Banyaknya bangsa dan negara di dunia, menimbulkan keanekaragaman
bahasa dan budaya. Salah satunya adalah Bahasa Jepang. Menurut (CIA World
Factbook, 2000) Bahasa Jepang merupakan salah satu bahasa yang paling sering
digunakan di dunia yaitu pada urutan kesembilan, sehingga dibutuhkan
pengetahuan mengenai bahasa dan tulisan Jepang. Huruf Jepang berbeda dengan
huruf abjad dan beda juga cara pelafalannya karena pelafalan huruf Jepang
biasanya terdiri dari dua suku kata. Huruf Jepang merupakan huruf yang dibentuk
dengan guratan garis-garis berarah yang berurutan dan sudut-sudut dengan
keunikan tersendiri dari setiap huruf. Hal inilah yang memberikan keunikan dan
permasalahan tersendiri dalam mempelajari huruf Jepang.
Penelitian ini, bertujuan untuk menerjemahkan aksara Jepang ke dalam
Bahasa Indonesia dengan metode Global Tresholding OTSU dan OCR Tesseract
serta mengkombinasikannya dengan algoritma String Matching Harspool. Jenis
tulisan yang digunakan adalah huruf Katakana. Katakana adalah huruf-huruf yang
berbentuk seperti ア, イ, ウ, エ, オ dan sebagainya. Katakana terbentuk dari
garis-garis atau coretan-coretan yang lurus (Sudjianto dan Dahidi, 2009). Bentuk
garis-garis atau coretan-coretan inilah yang menjadi salah satu karakteristik
katakana yang membedakannya dengan Hiragana.
Menurut Somers (2003), Optical Character Recognition atau yang biasa
disebut dengan OCR adalah suatu proses pengkonversian dari scanned image
menjadi editable text. Editable text didapatkan dari sebuah scanned image yang
bisa saja diambil dari hasil pemotretan atau juga hasil scan gambar yang
Universitas Sumatera Utara
3
kemudian dimasukkan kedalam komputer. Scanned image ini terdiri dari satu
kesatuan konten-konten yang nantinya akan di pilah menjadi konten-konten
tersendiri. Teknologi ini membuat sebuah mesin dapat mengenali sebuah teks
secara otomatis.
Penelitian terdahulu yang relevan dengan algoritma yang penulis gunakan
adalah Ade Kirana Wijayawati (2015) dalam skripsi yang berjudul Aplikasi
Android Penerjemah Bahasa Non-Latin Dengan Pengenalan Citra Karakter.Dalam
Skripsi ini suatu sistem pengenalan karakter nonlatin berbasis Android dirancang
untuk mengenali citra karakter nonlatin menggunakan Tesseract library OCR
(Optical Character Recognition) dan menerjemahkannya menjadi bahasa
Indonesia dan Inggris menggunakan Microsoft Translator. Persamaan dengan
penelitian yang penulis lakukan adalah sama–sama meggunakan Tesseract library
OCR (Optical Character Recognition) sedangkan perbedaannya adalah penulis
lebih spesifik mengenali bahasa Jepang saja dan mengkombinasikannya dengan
Algoritma String Matcing Harspool .
1.2 Rumusan Masalah
Berdasarkan latar belakang diatas, salah satunya masih banyaknya
masyarakat yang belum mengetahui tentang bahasa Jepang baik penulisan, arti
maupun penyebutan sehingga penulis ingin membuat sistem yang bisa
menerjemahkan dari aksara Jepang ke bahasa Indonesia dengan menerapkan
Image Process dan OCR Tesseract yang kemudian dikombinasikan dengan
Algoritma String Matching Horspool.
1.3 Batasan Masalah
Adapun batasan masalah dalam penelitian ini adalah sebagai berikut:
1. Menggunakan Global Thresholding Metode Otsu dan Tesseract OCR
Engine.serta Algoritma Horspool
2. Aplikasi yang dibangun hanya bisa menagani tulisan Jepang berjenis
Katakana.
3. Aplikasi yang dibangun hanya dapat mengenali cara penulisan 100 kata
jenis Katakana saja.
Universitas Sumatera Utara
4
4. Global Thresholding Metode Otsu digunakan untuk mengubah gambar
menjadi citra biner yang hanya mempunyai dua kemungkinan nilai yaitu
0 untuk hitam dan 1 untuk putih.
5. Tesseract OCR Engine
digunakan untuk mengenali huruf – huruf
tersebut.
6. Algoritma Horspool digunakan untuk melakukan pencocokan string
dengan data yang ada pada database.
7. Bahan
Tesseract
Engine
OCR
dapat
diunduh
di
https://github.com//tesseract-ocr /.
8. Data latih yang digunakan dapat diunduh di https://github.com//tesseractocr /tessdata.
9. Aplikasi yang dibuat Berbasis Android dengan menggunakan bahasa
pemograman Java dan menggunakan database manajemen sistem.
1.4 Tujuan Penelitian
a.
Mengimplementasikan Global Thresholding Metode Otsu dan Tesseract
OCR Engine dengan Algoritma Horspool untuk menejermahkan teks
berbahasa Jepang jenis Katakana.
b.
Memudahkan pengguna untuk menejermahkan tulisan berbahasa Jepang
tanpa harus menulisnya.
1.5 Manfaat Penelitian
Membuat sistem yang dapat menerjemahkan teks berbahasa Jepang jenis
Katakana, serta menambah kuantitas penelitian tentang proses penerjemah teks
dengan menggunakan Global Thresholding Metode Otsu , Tesseract OCR Engine
dan Algoritma Horspool
1.6 Metodologi Penelitian
Tahapan penelitian yang dilakukan dalam penelitian ini adalah :
1.
Studi Literatur
Pada tahan ini dilakukan peninjauan terhadap buku, artikel, jurnal,
maupun hasil penelitian terdahulu sebagai referensi yang diperlukan dalam
Universitas Sumatera Utara
5
melakukan penelitian.Ini dilakukan untuk memperoleh informasi yang terkait
dengan metode OTSU, OCR Tesseract Engine dan Algoritma Horspool.
2. Analisis dan Perancangan
Tahap ini digunakan untuk mengolah data dari hasil studi literatur yang
kemudian dilakukan analisis dan perancangan menggunkan Tresholding metode
OTSU, Tesseract engine dan Algoritma Horspool, sehingga menjadi suatu
aplikasi yang tersetruktur dan jelas. Proses ini meliputi pembuatan algoritma
program, Use case Scenario,flowchart sistem, flowchart Algoritma, rancangan
aplikasi, dan pembuatan User Interface aplikasi.
3. Implementasi
Tresholding metode OTSU, Tesseract Engine dan Algoritma Horspool
diimplementasi dalam pembuatan suatu aplikasidengan menggunakan bahasa
pemrograman Java berbasis Android.
4. Pengujian
Menguji apakah aplikasi yang di buat telah berhasil berjalan sesuai
dengan keinginan dan melakukan perbaikan kesalahan jika masih tedapat error
pada aplikasi.
5. Dokumentasi
Pada tahap ini berisi laporan dan kesimpulan akhir dari hasil akhir analisa
dan pengujian dalam bentuk skripsi.
Universitas Sumatera Utara
6
1.7
Sistematika Penulisan
Agar pembahasan lebih sistematis, maka tulisan ini dibuat dalam lima bab, yaitu :
BAB 1 PENDAHULUAN
Bab ini akan menjelaskan mengenai latar belakang penilitian judul skripsi
―Implementasi Tresholding Global Metode Otsu dan Tesseract Engine dengan
Algoritma Horspool Untuk Menerjemahkan Kata Berbahasa Jepang Jenis
Katakana‖. Rumusan masalah, batasan masalah, tujuan penelitian, manfaat
penelitian, metode penelitian, tinjauan pustaka, dan sistematika penulisan skripsi.
BAB 2 LANDASAN TEORI
Berisi tentang pembahasan teori-teori tentang Image processing,
tresholding global metode Otsu, Image Optical Character Recognitioin (OCR),
String matching dan Algoritma horspool.
BAB 3 ANALISIS DAN PERANCANGAN
Berisi tentang uraian analisis mengenai proses kerja dari Tresholding
metode OTSU, Tesseract Engine dan Algoritma Horspool, yang terdiri dari
flowchart, unified modeling language (UML) sertaperancangan dari aplikasi.
BAB 4 IMPLEMENTASI DAN PENGUJIAN
Pada tahap ini dilakukan pembuatan sistem sesuai dengan analisis dan
perancangan. Kemudian melakukan pengujian sistem.
BAB 5 KESIMPULAN DAN SARAN
Bab terakhir akan memuat kesimpulan isi dari keseluruhan uraian dari
bab-bab sebelumnya dan saran-saran dari hasil yang diperoleh yang diharapkan
dapat bermanfaat dalam pengembangan selanjutnya.
Universitas Sumatera Utara
BAB I
PENDAHULUAN
Bab ini akan menjelaskan mengenai latar belakang penelitian judul skripsi
―Implementasi Global Tresholding Metode Otsu Dan OCR Tesseract Engine
Dengan Algoritma Horspool Untuk Menerjemahkan Kata Berbahasa Jepang Jenis
Katakana‖. Rumusan masalah, batasan masalah, tujuan penelitian, manfaat
penelitian, metode penelitian, tinjauan pustaka, dan sistematika penulisan skripsi.
1.1. Latar Belakang
Banyaknya bangsa dan negara di dunia, menimbulkan keanekaragaman
bahasa dan budaya. Salah satunya adalah Bahasa Jepang. Menurut (CIA World
Factbook, 2000) Bahasa Jepang merupakan salah satu bahasa yang paling sering
digunakan di dunia yaitu pada urutan kesembilan, sehingga dibutuhkan
pengetahuan mengenai bahasa dan tulisan Jepang. Huruf Jepang berbeda dengan
huruf abjad dan beda juga cara pelafalannya karena pelafalan huruf Jepang
biasanya terdiri dari dua suku kata. Huruf Jepang merupakan huruf yang dibentuk
dengan guratan garis-garis berarah yang berurutan dan sudut-sudut dengan
keunikan tersendiri dari setiap huruf. Hal inilah yang memberikan keunikan dan
permasalahan tersendiri dalam mempelajari huruf Jepang.
Penelitian ini, bertujuan untuk menerjemahkan aksara Jepang ke dalam
Bahasa Indonesia dengan metode Global Tresholding OTSU dan OCR Tesseract
serta mengkombinasikannya dengan algoritma String Matching Harspool. Jenis
tulisan yang digunakan adalah huruf Katakana. Katakana adalah huruf-huruf yang
berbentuk seperti ア, イ, ウ, エ, オ dan sebagainya. Katakana terbentuk dari
garis-garis atau coretan-coretan yang lurus (Sudjianto dan Dahidi, 2009). Bentuk
garis-garis atau coretan-coretan inilah yang menjadi salah satu karakteristik
katakana yang membedakannya dengan Hiragana.
Menurut Somers (2003), Optical Character Recognition atau yang biasa
disebut dengan OCR adalah suatu proses pengkonversian dari scanned image
menjadi editable text. Editable text didapatkan dari sebuah scanned image yang
bisa saja diambil dari hasil pemotretan atau juga hasil scan gambar yang
Universitas Sumatera Utara
3
kemudian dimasukkan kedalam komputer. Scanned image ini terdiri dari satu
kesatuan konten-konten yang nantinya akan di pilah menjadi konten-konten
tersendiri. Teknologi ini membuat sebuah mesin dapat mengenali sebuah teks
secara otomatis.
Penelitian terdahulu yang relevan dengan algoritma yang penulis gunakan
adalah Ade Kirana Wijayawati (2015) dalam skripsi yang berjudul Aplikasi
Android Penerjemah Bahasa Non-Latin Dengan Pengenalan Citra Karakter.Dalam
Skripsi ini suatu sistem pengenalan karakter nonlatin berbasis Android dirancang
untuk mengenali citra karakter nonlatin menggunakan Tesseract library OCR
(Optical Character Recognition) dan menerjemahkannya menjadi bahasa
Indonesia dan Inggris menggunakan Microsoft Translator. Persamaan dengan
penelitian yang penulis lakukan adalah sama–sama meggunakan Tesseract library
OCR (Optical Character Recognition) sedangkan perbedaannya adalah penulis
lebih spesifik mengenali bahasa Jepang saja dan mengkombinasikannya dengan
Algoritma String Matcing Harspool .
1.2 Rumusan Masalah
Berdasarkan latar belakang diatas, salah satunya masih banyaknya
masyarakat yang belum mengetahui tentang bahasa Jepang baik penulisan, arti
maupun penyebutan sehingga penulis ingin membuat sistem yang bisa
menerjemahkan dari aksara Jepang ke bahasa Indonesia dengan menerapkan
Image Process dan OCR Tesseract yang kemudian dikombinasikan dengan
Algoritma String Matching Horspool.
1.3 Batasan Masalah
Adapun batasan masalah dalam penelitian ini adalah sebagai berikut:
1. Menggunakan Global Thresholding Metode Otsu dan Tesseract OCR
Engine.serta Algoritma Horspool
2. Aplikasi yang dibangun hanya bisa menagani tulisan Jepang berjenis
Katakana.
3. Aplikasi yang dibangun hanya dapat mengenali cara penulisan 100 kata
jenis Katakana saja.
Universitas Sumatera Utara
4
4. Global Thresholding Metode Otsu digunakan untuk mengubah gambar
menjadi citra biner yang hanya mempunyai dua kemungkinan nilai yaitu
0 untuk hitam dan 1 untuk putih.
5. Tesseract OCR Engine
digunakan untuk mengenali huruf – huruf
tersebut.
6. Algoritma Horspool digunakan untuk melakukan pencocokan string
dengan data yang ada pada database.
7. Bahan
Tesseract
Engine
OCR
dapat
diunduh
di
https://github.com//tesseract-ocr /.
8. Data latih yang digunakan dapat diunduh di https://github.com//tesseractocr /tessdata.
9. Aplikasi yang dibuat Berbasis Android dengan menggunakan bahasa
pemograman Java dan menggunakan database manajemen sistem.
1.4 Tujuan Penelitian
a.
Mengimplementasikan Global Thresholding Metode Otsu dan Tesseract
OCR Engine dengan Algoritma Horspool untuk menejermahkan teks
berbahasa Jepang jenis Katakana.
b.
Memudahkan pengguna untuk menejermahkan tulisan berbahasa Jepang
tanpa harus menulisnya.
1.5 Manfaat Penelitian
Membuat sistem yang dapat menerjemahkan teks berbahasa Jepang jenis
Katakana, serta menambah kuantitas penelitian tentang proses penerjemah teks
dengan menggunakan Global Thresholding Metode Otsu , Tesseract OCR Engine
dan Algoritma Horspool
1.6 Metodologi Penelitian
Tahapan penelitian yang dilakukan dalam penelitian ini adalah :
1.
Studi Literatur
Pada tahan ini dilakukan peninjauan terhadap buku, artikel, jurnal,
maupun hasil penelitian terdahulu sebagai referensi yang diperlukan dalam
Universitas Sumatera Utara
5
melakukan penelitian.Ini dilakukan untuk memperoleh informasi yang terkait
dengan metode OTSU, OCR Tesseract Engine dan Algoritma Horspool.
2. Analisis dan Perancangan
Tahap ini digunakan untuk mengolah data dari hasil studi literatur yang
kemudian dilakukan analisis dan perancangan menggunkan Tresholding metode
OTSU, Tesseract engine dan Algoritma Horspool, sehingga menjadi suatu
aplikasi yang tersetruktur dan jelas. Proses ini meliputi pembuatan algoritma
program, Use case Scenario,flowchart sistem, flowchart Algoritma, rancangan
aplikasi, dan pembuatan User Interface aplikasi.
3. Implementasi
Tresholding metode OTSU, Tesseract Engine dan Algoritma Horspool
diimplementasi dalam pembuatan suatu aplikasidengan menggunakan bahasa
pemrograman Java berbasis Android.
4. Pengujian
Menguji apakah aplikasi yang di buat telah berhasil berjalan sesuai
dengan keinginan dan melakukan perbaikan kesalahan jika masih tedapat error
pada aplikasi.
5. Dokumentasi
Pada tahap ini berisi laporan dan kesimpulan akhir dari hasil akhir analisa
dan pengujian dalam bentuk skripsi.
Universitas Sumatera Utara
6
1.7
Sistematika Penulisan
Agar pembahasan lebih sistematis, maka tulisan ini dibuat dalam lima bab, yaitu :
BAB 1 PENDAHULUAN
Bab ini akan menjelaskan mengenai latar belakang penilitian judul skripsi
―Implementasi Tresholding Global Metode Otsu dan Tesseract Engine dengan
Algoritma Horspool Untuk Menerjemahkan Kata Berbahasa Jepang Jenis
Katakana‖. Rumusan masalah, batasan masalah, tujuan penelitian, manfaat
penelitian, metode penelitian, tinjauan pustaka, dan sistematika penulisan skripsi.
BAB 2 LANDASAN TEORI
Berisi tentang pembahasan teori-teori tentang Image processing,
tresholding global metode Otsu, Image Optical Character Recognitioin (OCR),
String matching dan Algoritma horspool.
BAB 3 ANALISIS DAN PERANCANGAN
Berisi tentang uraian analisis mengenai proses kerja dari Tresholding
metode OTSU, Tesseract Engine dan Algoritma Horspool, yang terdiri dari
flowchart, unified modeling language (UML) sertaperancangan dari aplikasi.
BAB 4 IMPLEMENTASI DAN PENGUJIAN
Pada tahap ini dilakukan pembuatan sistem sesuai dengan analisis dan
perancangan. Kemudian melakukan pengujian sistem.
BAB 5 KESIMPULAN DAN SARAN
Bab terakhir akan memuat kesimpulan isi dari keseluruhan uraian dari
bab-bab sebelumnya dan saran-saran dari hasil yang diperoleh yang diharapkan
dapat bermanfaat dalam pengembangan selanjutnya.
Universitas Sumatera Utara