Implementasi Global Tresholding Metode Otsu dan Tesseract Engine dengan Algoritma Horspool untuk Menerjemahkan Kata Berbahasa Jepang Jenis Katakana
i
IMPLEMENTASI GLOBAL TRESHOLDING METODE OTSU DAN TESSERACT OCR
ENGINEDENGAN ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN
KATA BERBAHASA JEPANG JENIS KATAKANA
SKRIPSI
DHIWA ARIE PRATAMA
131401028
PROGRAM STUDI S1 ILMU KOMPUTER
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
ii
IMPLEMENTASI GLOBAL TRESHOLDING METODE OTSU DAN TESSERACT OCR
ENGINEDENGAN ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN
KATA BERBAHASA JEPANG JENIS KATAKANA
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Sarjana Ilmu Komputer
DHIWA ARIE PRATAMA
131401028
PROGRAM STUDI S1 ILMU KOMPUTER
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
2017
Universitas Sumatera Utara
iii
PERSETUJUAN
Judul
: IMPLEMENTASI GLOBAL TRESHOLDING METODE
OTSU
DAN
TESSERACT
OCR
ENGINEDENGAN
ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN
KATA BERBAHASA JEPANG JENIS KATAKANA
Kategori
Nama
Nomor Induk Mahasiswa
Program Studi
Fakultas
:
:
:
:
:
Komisi Pembimbing
:
Dosen Pembimbing II
Amalia, S.T., M.T.
NIP. 197812212014042001
SKRIPSI
DHIWA ARIE PRATAMA
131401028
SARJANA (S1) ILMU KOMPUTER
ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI UNIVERSITAS SUMATERA UTARA
Dosen Pembimbing I
(Dian Rachmawati, S.Si, M.kom)
NIP.198307232009122004
Diketahui/Disetujui oleh
Program Studi S1 IlmuKomputer
Ketua,
Dr. Poltak Sihombing, M.Kom
NIP. 19620317 19910210 01
Universitas Sumatera Utara
iv
PERNYATAAN
IMPLEMENTASI GLOBAL TRESHOLDING METODE OTSU DAN TESSERACT OCR
ENGINEDENGAN ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN KATA
BERBAHASA JEPANG JENIS KATAKANA
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Juni 2017
Dhiwa Arie Pratama
NIM. 131401028
Universitas Sumatera Utara
v
PENGHARGAAN
Puji dan syukur penulis ucapkan kehadirat Allah SWT, karena rahmat dan
izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk
memperoleh gelar Sarjana Komputer, pada Program Studi S1 Ilmu Komputer Fakultas
Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Banyak bantuan
berupa uluran tangan, budi baik, buah pikiran dan kerjasama yang telah penulis terima
selama menempuh studi sampai dengan penyelesaian studi (skripsi) ini. Oleh karena
itu, seyogianya penulis menyampaikan ucapan terimakasih kepada pihak-pihak yang
telah membantu.
Ucapan terima kasih penulis sampaikan kepada:
1. Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera
Utara.
2. Prof. Dr. Opim Salim Sitompul M.sc selaku Dekan Fakultas Ilmu Komputer
dan Teknologi Informasi Universitas Sumatera Utara.
3. Bapak Dr. Poltak Sihombing, M.Kom selaku Ketua Program Studi S1 Ilmu
Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas
Sumatera Utara dan dosen pembanding I yang telah memberikan kritik dan
saran guna memperbaiki kesalahan yang ada pada skripsi ini.
4. Ibu Dian Rachmawati, S.Si, M.kom selaku dosen pembimbing I yang telah
memberikan bimbingan, kritik, dan saran kepada penulis dalam menyelesaikan
skripsi ini.
5. Ibu Amalia., S.T., M.T selaku dosen pembimbing II yang telah memberikan
bimbingan, kritik, dan saran kepada penulis dalam menyelesaikan skripsi ini.
6.
Bapak Jos TimantaTarigan, S.kom, M.Sc selaku dosen pembanding II yang
telah memberikan kritik dan saran guna memperbaiki kesalahan yang ada pada
skripsi ini.
7. Ayahanda Rudi Siswono dan ibunda Aswati yang selalu memberikan doa dan
dukungan serta kasih sayang kepada penulis.
8. Saudari
Widia
Febrianti
yang
telah
banyak
membantu
penulis
dalampembuatan skripsi ini.
9. Sahabat-Sahabat Fikri Haisar, Exaudi Naipospos, Yoga Aditya, Agum
Gumelar, M Farhandika, Setiadi Prayogo , Diah Mustika Sari, Chytia Aulia N,
Universitas Sumatera Utara
vi
Shintia Dirda, Rahmi Suliani, yang telah berbagi kebersamaan dan saling
memberikan semangat serta dorongan kepada penulis selama menyelesaikan
skripsi ini.
10. Semua pihak yang terlibat langsung atau tidak langsung yang penulis tidak
dapat tuliskan satu per satu
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah
memberikan bantuan, semangat, perhatian, serta dukungan kepada penulis dalam
menyelesaikan skripsi ini. semoga skripsi ini bermanfaat bagi pribadi, keluarga,
masyarakat, organisasi dan negara.
Medan, Juni 2017
Penulis
Universitas Sumatera Utara
vii
ABSTRAK
Bahasa Jepang merupakan salah satu bahasa yang paling sering digunakan di dunia
yaitu pada urutan kesembilan, sehingga dibutuhkan pengetahuan mengenai bahasa dan
tulisan Jepang. Masih banyaknya masyarakat yang belum mengetahui tentang bahasa
Jepang baik penulisan, arti maupun penyebutan sehingga dibuat sistem yang bisa
menerjemahkan dari aksara Jepang ke bahasa Indonesia dengan menerapkan Image
Process dan OCR Tesseract yang kemudian dikombinasikan dengan algoritma String
Matching Horspool. OCR diperlukan untuk mengenali teks yang terdapat dalam
sebuah gambar. Gambar inputan mengalami proses segmentasi untuk mendapatkan
citra biner dengan Treshold Metode OTSU setelah itu dicocokan dengan data latih
aksara Jepang yang sudah tersedia. Image Processing dilakukan untuk menambah
akurasi ketepatan pengenalan OCR Tesseract.String yang didapat kemudian
diterjemahkan secara online, dan dilakukan proses string matching dengan data yang
terdapat dalam database. Algoritma Horspool menyimpan informasi pencarian untuk
melakukan pergeseran yang lebih jauh karena pencocokan string dilakukan dari
kanan ke kiri sehingga waktu pencarian lebih pendek. Hasil yang didapat dari aplikasi
ini menampilkan keseluruhan string yang berhasil dikenali dan pattern yang cocok
dengan string yang berhasil dikenali.
Kata Kunci : Image Processing, Metode OCR, OCR Tesseract, Algoritma Horspool,
Pengenalan Kata dari Image
Universitas Sumatera Utara
viii
ABSTRACT
Japanese is one of the most commonly used languages in the world in the ninth order,
requiring knowledge of Japanese language and writing. There are still many people
who do not know about the Japanese language either writing, meaning and
mentioning that made a system that can translate from Japanese script to the
Indonesian language by applying Image Process and OCR Tesseract which then
combined with String Matching Horspool algorithm. OCR is required to recognize the
text contained in an image. The input image experiencing segmentation process to get
a binary image with the OTSU Treshold Method after which it is matched with
Japanese script tracking data already available. Image Processing is done to increase
accuracy of the accuracy of the introduction of OCR Tesseract. The obtained string is
then translated online, and a string matching process is done with the data contained
in the database. The Horspool algorithm stores search information to make further
shifts because string matching is done from right to left so that search time is shorter.
The results obtained from this app show the entire string that was recognized and the
pattern matching the string that was successfully recognized.
Keywords : Image Processing, OCR Method, OCR Tesseract, Horspool Algorithm,
Word Recognition from Image
Universitas Sumatera Utara
ix
DAFTAR ISI
Halaman
Persetujuan ..................................................................................................... ii
Pernyataan ..................................................................................................... iii
Penghargaan .................................................................................................. iv
Abstrak .......................................................................................................... vi
Abstract ........................................................................................................ vii
Daftar Isi ..................................................................................................... viii
Daftar Tabel ................................................................................................... x
Daftar Gambar............................................................................................... xi
Daftar Lampiran ........................................................................................... xii
Bab I Pendahuluan
1.1 Latar Belakang ............................................................................ 1
1.2 Rumusan Masalah ....................................................................... 2
1.3 Batasan Masalah .......................................................................... 3
1.4 Tujuan Penelitian......................................................................... 3
1.5 Manfaat Penelitian....................................................................... 3
1.6 Metode Penelitian ....................................................................... 3
1.7 Sistematika Penulisan .................................................................. 4
Bab II Tinjauan Pustaka
2.1 Image Preprocessing ................................................................... 5
2.1.1 Grayscaling ........................................................................ 5
2.1.2Global Thresholding Metode Otsu ............................................... 7
2.2 Optical Character Recognition ( OCR ) ...................................... 9
2.2.1 Tesseract OCR Engine ..................................................... 11
2.2.2 Arsitektur Tesseract OCR ........................................................ 11
2.2.3 Pengenalan Karakter oleh Tesseract......................................... 13
2.2.3.1 Pencarian Teks line dan kata ....................................... 13
2.2.3.2 Pengenalan Karakter dan Kata ...................................... 15
2.3 String Matching ......................................................................... 17
2.3.1 Pengertian String Matching .............................................. 17
2.3.2 Cara kerja String Matching .............................................. 17
2.3.3 Klasifikasi Algoritma String Matching ............................ 18
2.3.4 Algoritma Horspool ......................................................... 20
2.3.4.1Pencarian Dengan Algoritma Horspool ............. 21
2.4 Huruf Jepang Jenis Katakana ................................................................. 24
2.4.2 Huruf Katakana ................................................................. 24
2.4.1.1Huruf Dasar Katakana .......................................... 24
2.4.1.2 Huruf Tambahan Katakana ................................. 25
2.4.1.3 Huruf Gabungan Katakana .................................. 26
Bab 3 Analisis dan Perancangan Sistem
3.1 Diagram Arsitektur..................................................................... 27
3.2 Analisis Sistem .......................................................................... 29
3.2.1 Analisis Sistem................................................................. 29
3.2.2 Analisis Persyaratan ......................................................... 30
3.2.2.1 Persssyaratan Fungsional................................... 31
Universitas Sumatera Utara
x
3.2.2.2 Persyaratan Non Fungsional .............................. 31
3.2.3 Analisis Pemodelan Sistem ....................................................... 32
3.2.3.1 Use-Case Diagram....................................................... 32
3.2.3.2 Activity Diagram .......................................................... 37
3.2.3.3 Sequence Diagram....................................................... 40
3.2.4 Flowchart ................................................................................... 41
3.2.4 Form Splash Screen ......................................................... 42
3.2.5 Form Menu ................................................................................ 43
3.2.7 Form Capture Image ................................................................. 44
3.2.8 Form Crop Image ............................................................. 45
3.2.9 Form OCR Tesseract ........................................................ 48
3.2.10 Form About Me ........................................................................ 49
Bab 4 Implementasi dan Pengujian
4.1 Implementasi Sistem .................................................................. 50
4.1.1 Photo ................................................................................. 50
4.1.2Crop.................................................................................... 51
4.1.3 OCR Tesseract .................................................................. 51
4.1.4 Menu Utama...................................................................... 52
4.1.5 About Us............................................................................ 53
4.2 Pengujian Sistem ........................................................................ 53
4.2.1 Pengujian Proses Pengenalan karakter OCR ............................. 54
4.2.2 Proses Pencocokan String.......................................................... 55
4.3 Hasil Pengujian Sistem .............................................................. 56
Bab 5 Kesimpulan dan Saran
5.1 Kesimpulan ................................................................................ 64
5.2 Saran ........................................................................................... 64
Daftar Pustaka .............................................................................................. 65
Universitas Sumatera Utara
xii
DAFTAR GAMBAR
Nomor
Gambar
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
4.1
4.2
4.3
4.4
4.5
4.6
Nama Gambar
Proses Sebelum dan Sesudah Metode OTSU
Proses OCR
Arsitektur Tesseract OCR
ContohFittedBaseline
Contoh Pemisahan Karakter
Titik Pemotongan Karakter
Kata yang Mudah dikenali
Huruf Dasar Katakana
Huruf Tambahan Katakana
Huruf Gabungan Katakana
General Arsitektur Sistem
Diagram Ishikawa
Diagram Use-Case
Activity Diagram Capture Image
Activity Diagram Crop Image
Activity Diagram OCR Tesseract
Sequence Diagram Sistem
Flowchart Algoritma Horspool
Rancangan Form Splash Screen
Rancangan Form Menu
Rancangan Form Capture Image
Rancangan Form Capture Image
Rancangan Form Tambahan Cropper Image
Rancangan Form Crop Image
Rancangan Form About Me
Tampilan photo
Tampilan Utama Crop
Tampilan Tambahan Crop
Tampilan OCR Tesseract
Tampilan Menu Utama
Tampilan About Us
Halaman
8
10
12
14
15
16
16
24
25
26
28
30
32
37
38
39
40
41
42
43
44
45
47
48
49
50
51
51
52
52
53
Universitas Sumatera Utara
xii
ii
DAFTAR TABEL
Nomor
Tabel
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
Nama Tabel
Halaman
Dokumentasi Naratif Use-Case Capture Image
Dokumentasi Naratif Use-Case Crop Image
Dokumentasi Naratif Use-Case Prepocessing Sistem
Dokumentasi Naratif Use-Case Segmentasi Citra
Dokumentasi Naratif Use-Case Binerisasi Citra
Dokumentasi Naratif Use-Case Pengenalan Karakter
Dokumentasi Naratif Use-Case Penerjemahan Teks Secara
Online
Dokumentasi NaratifUse-Case Pencocokan String
Hasil Penguji Sistem
31
31
31
32
32
33
33
34
54
Universitas Sumatera Utara
xiii
DAFTAR LAMPIRAN
Nomor
Lampiran
4.1
4.2
Nama Lampiran
Halaman
Liating Program
Curiculum Vitae
A-1
B-1
Universitas Sumatera Utara
IMPLEMENTASI GLOBAL TRESHOLDING METODE OTSU DAN TESSERACT OCR
ENGINEDENGAN ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN
KATA BERBAHASA JEPANG JENIS KATAKANA
SKRIPSI
DHIWA ARIE PRATAMA
131401028
PROGRAM STUDI S1 ILMU KOMPUTER
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
ii
IMPLEMENTASI GLOBAL TRESHOLDING METODE OTSU DAN TESSERACT OCR
ENGINEDENGAN ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN
KATA BERBAHASA JEPANG JENIS KATAKANA
SKRIPSI
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Sarjana Ilmu Komputer
DHIWA ARIE PRATAMA
131401028
PROGRAM STUDI S1 ILMU KOMPUTER
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
2017
Universitas Sumatera Utara
iii
PERSETUJUAN
Judul
: IMPLEMENTASI GLOBAL TRESHOLDING METODE
OTSU
DAN
TESSERACT
OCR
ENGINEDENGAN
ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN
KATA BERBAHASA JEPANG JENIS KATAKANA
Kategori
Nama
Nomor Induk Mahasiswa
Program Studi
Fakultas
:
:
:
:
:
Komisi Pembimbing
:
Dosen Pembimbing II
Amalia, S.T., M.T.
NIP. 197812212014042001
SKRIPSI
DHIWA ARIE PRATAMA
131401028
SARJANA (S1) ILMU KOMPUTER
ILMU KOMPUTER DAN TEKNOLOGI
INFORMASI UNIVERSITAS SUMATERA UTARA
Dosen Pembimbing I
(Dian Rachmawati, S.Si, M.kom)
NIP.198307232009122004
Diketahui/Disetujui oleh
Program Studi S1 IlmuKomputer
Ketua,
Dr. Poltak Sihombing, M.Kom
NIP. 19620317 19910210 01
Universitas Sumatera Utara
iv
PERNYATAAN
IMPLEMENTASI GLOBAL TRESHOLDING METODE OTSU DAN TESSERACT OCR
ENGINEDENGAN ALGORITMA HORSPOOLUNTUK MENERJEMAHKAN KATA
BERBAHASA JEPANG JENIS KATAKANA
SKRIPSI
Saya mengakui bahwa skripsi ini adalah hasil karya saya sendiri, kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan, Juni 2017
Dhiwa Arie Pratama
NIM. 131401028
Universitas Sumatera Utara
v
PENGHARGAAN
Puji dan syukur penulis ucapkan kehadirat Allah SWT, karena rahmat dan
izin-Nya penulis dapat menyelesaikan penyusunan skripsi ini, sebagai syarat untuk
memperoleh gelar Sarjana Komputer, pada Program Studi S1 Ilmu Komputer Fakultas
Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara. Banyak bantuan
berupa uluran tangan, budi baik, buah pikiran dan kerjasama yang telah penulis terima
selama menempuh studi sampai dengan penyelesaian studi (skripsi) ini. Oleh karena
itu, seyogianya penulis menyampaikan ucapan terimakasih kepada pihak-pihak yang
telah membantu.
Ucapan terima kasih penulis sampaikan kepada:
1. Prof. Dr. Runtung Sitepu, SH, M.Hum selaku Rektor Universitas Sumatera
Utara.
2. Prof. Dr. Opim Salim Sitompul M.sc selaku Dekan Fakultas Ilmu Komputer
dan Teknologi Informasi Universitas Sumatera Utara.
3. Bapak Dr. Poltak Sihombing, M.Kom selaku Ketua Program Studi S1 Ilmu
Komputer Fakultas Ilmu Komputer dan Teknologi Informasi Universitas
Sumatera Utara dan dosen pembanding I yang telah memberikan kritik dan
saran guna memperbaiki kesalahan yang ada pada skripsi ini.
4. Ibu Dian Rachmawati, S.Si, M.kom selaku dosen pembimbing I yang telah
memberikan bimbingan, kritik, dan saran kepada penulis dalam menyelesaikan
skripsi ini.
5. Ibu Amalia., S.T., M.T selaku dosen pembimbing II yang telah memberikan
bimbingan, kritik, dan saran kepada penulis dalam menyelesaikan skripsi ini.
6.
Bapak Jos TimantaTarigan, S.kom, M.Sc selaku dosen pembanding II yang
telah memberikan kritik dan saran guna memperbaiki kesalahan yang ada pada
skripsi ini.
7. Ayahanda Rudi Siswono dan ibunda Aswati yang selalu memberikan doa dan
dukungan serta kasih sayang kepada penulis.
8. Saudari
Widia
Febrianti
yang
telah
banyak
membantu
penulis
dalampembuatan skripsi ini.
9. Sahabat-Sahabat Fikri Haisar, Exaudi Naipospos, Yoga Aditya, Agum
Gumelar, M Farhandika, Setiadi Prayogo , Diah Mustika Sari, Chytia Aulia N,
Universitas Sumatera Utara
vi
Shintia Dirda, Rahmi Suliani, yang telah berbagi kebersamaan dan saling
memberikan semangat serta dorongan kepada penulis selama menyelesaikan
skripsi ini.
10. Semua pihak yang terlibat langsung atau tidak langsung yang penulis tidak
dapat tuliskan satu per satu
Semoga Allah SWT melimpahkan berkah kepada semua pihak yang telah
memberikan bantuan, semangat, perhatian, serta dukungan kepada penulis dalam
menyelesaikan skripsi ini. semoga skripsi ini bermanfaat bagi pribadi, keluarga,
masyarakat, organisasi dan negara.
Medan, Juni 2017
Penulis
Universitas Sumatera Utara
vii
ABSTRAK
Bahasa Jepang merupakan salah satu bahasa yang paling sering digunakan di dunia
yaitu pada urutan kesembilan, sehingga dibutuhkan pengetahuan mengenai bahasa dan
tulisan Jepang. Masih banyaknya masyarakat yang belum mengetahui tentang bahasa
Jepang baik penulisan, arti maupun penyebutan sehingga dibuat sistem yang bisa
menerjemahkan dari aksara Jepang ke bahasa Indonesia dengan menerapkan Image
Process dan OCR Tesseract yang kemudian dikombinasikan dengan algoritma String
Matching Horspool. OCR diperlukan untuk mengenali teks yang terdapat dalam
sebuah gambar. Gambar inputan mengalami proses segmentasi untuk mendapatkan
citra biner dengan Treshold Metode OTSU setelah itu dicocokan dengan data latih
aksara Jepang yang sudah tersedia. Image Processing dilakukan untuk menambah
akurasi ketepatan pengenalan OCR Tesseract.String yang didapat kemudian
diterjemahkan secara online, dan dilakukan proses string matching dengan data yang
terdapat dalam database. Algoritma Horspool menyimpan informasi pencarian untuk
melakukan pergeseran yang lebih jauh karena pencocokan string dilakukan dari
kanan ke kiri sehingga waktu pencarian lebih pendek. Hasil yang didapat dari aplikasi
ini menampilkan keseluruhan string yang berhasil dikenali dan pattern yang cocok
dengan string yang berhasil dikenali.
Kata Kunci : Image Processing, Metode OCR, OCR Tesseract, Algoritma Horspool,
Pengenalan Kata dari Image
Universitas Sumatera Utara
viii
ABSTRACT
Japanese is one of the most commonly used languages in the world in the ninth order,
requiring knowledge of Japanese language and writing. There are still many people
who do not know about the Japanese language either writing, meaning and
mentioning that made a system that can translate from Japanese script to the
Indonesian language by applying Image Process and OCR Tesseract which then
combined with String Matching Horspool algorithm. OCR is required to recognize the
text contained in an image. The input image experiencing segmentation process to get
a binary image with the OTSU Treshold Method after which it is matched with
Japanese script tracking data already available. Image Processing is done to increase
accuracy of the accuracy of the introduction of OCR Tesseract. The obtained string is
then translated online, and a string matching process is done with the data contained
in the database. The Horspool algorithm stores search information to make further
shifts because string matching is done from right to left so that search time is shorter.
The results obtained from this app show the entire string that was recognized and the
pattern matching the string that was successfully recognized.
Keywords : Image Processing, OCR Method, OCR Tesseract, Horspool Algorithm,
Word Recognition from Image
Universitas Sumatera Utara
ix
DAFTAR ISI
Halaman
Persetujuan ..................................................................................................... ii
Pernyataan ..................................................................................................... iii
Penghargaan .................................................................................................. iv
Abstrak .......................................................................................................... vi
Abstract ........................................................................................................ vii
Daftar Isi ..................................................................................................... viii
Daftar Tabel ................................................................................................... x
Daftar Gambar............................................................................................... xi
Daftar Lampiran ........................................................................................... xii
Bab I Pendahuluan
1.1 Latar Belakang ............................................................................ 1
1.2 Rumusan Masalah ....................................................................... 2
1.3 Batasan Masalah .......................................................................... 3
1.4 Tujuan Penelitian......................................................................... 3
1.5 Manfaat Penelitian....................................................................... 3
1.6 Metode Penelitian ....................................................................... 3
1.7 Sistematika Penulisan .................................................................. 4
Bab II Tinjauan Pustaka
2.1 Image Preprocessing ................................................................... 5
2.1.1 Grayscaling ........................................................................ 5
2.1.2Global Thresholding Metode Otsu ............................................... 7
2.2 Optical Character Recognition ( OCR ) ...................................... 9
2.2.1 Tesseract OCR Engine ..................................................... 11
2.2.2 Arsitektur Tesseract OCR ........................................................ 11
2.2.3 Pengenalan Karakter oleh Tesseract......................................... 13
2.2.3.1 Pencarian Teks line dan kata ....................................... 13
2.2.3.2 Pengenalan Karakter dan Kata ...................................... 15
2.3 String Matching ......................................................................... 17
2.3.1 Pengertian String Matching .............................................. 17
2.3.2 Cara kerja String Matching .............................................. 17
2.3.3 Klasifikasi Algoritma String Matching ............................ 18
2.3.4 Algoritma Horspool ......................................................... 20
2.3.4.1Pencarian Dengan Algoritma Horspool ............. 21
2.4 Huruf Jepang Jenis Katakana ................................................................. 24
2.4.2 Huruf Katakana ................................................................. 24
2.4.1.1Huruf Dasar Katakana .......................................... 24
2.4.1.2 Huruf Tambahan Katakana ................................. 25
2.4.1.3 Huruf Gabungan Katakana .................................. 26
Bab 3 Analisis dan Perancangan Sistem
3.1 Diagram Arsitektur..................................................................... 27
3.2 Analisis Sistem .......................................................................... 29
3.2.1 Analisis Sistem................................................................. 29
3.2.2 Analisis Persyaratan ......................................................... 30
3.2.2.1 Persssyaratan Fungsional................................... 31
Universitas Sumatera Utara
x
3.2.2.2 Persyaratan Non Fungsional .............................. 31
3.2.3 Analisis Pemodelan Sistem ....................................................... 32
3.2.3.1 Use-Case Diagram....................................................... 32
3.2.3.2 Activity Diagram .......................................................... 37
3.2.3.3 Sequence Diagram....................................................... 40
3.2.4 Flowchart ................................................................................... 41
3.2.4 Form Splash Screen ......................................................... 42
3.2.5 Form Menu ................................................................................ 43
3.2.7 Form Capture Image ................................................................. 44
3.2.8 Form Crop Image ............................................................. 45
3.2.9 Form OCR Tesseract ........................................................ 48
3.2.10 Form About Me ........................................................................ 49
Bab 4 Implementasi dan Pengujian
4.1 Implementasi Sistem .................................................................. 50
4.1.1 Photo ................................................................................. 50
4.1.2Crop.................................................................................... 51
4.1.3 OCR Tesseract .................................................................. 51
4.1.4 Menu Utama...................................................................... 52
4.1.5 About Us............................................................................ 53
4.2 Pengujian Sistem ........................................................................ 53
4.2.1 Pengujian Proses Pengenalan karakter OCR ............................. 54
4.2.2 Proses Pencocokan String.......................................................... 55
4.3 Hasil Pengujian Sistem .............................................................. 56
Bab 5 Kesimpulan dan Saran
5.1 Kesimpulan ................................................................................ 64
5.2 Saran ........................................................................................... 64
Daftar Pustaka .............................................................................................. 65
Universitas Sumatera Utara
xii
DAFTAR GAMBAR
Nomor
Gambar
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
2.10
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
3.10
3.11
3.12
3.13
3.14
3.15
4.1
4.2
4.3
4.4
4.5
4.6
Nama Gambar
Proses Sebelum dan Sesudah Metode OTSU
Proses OCR
Arsitektur Tesseract OCR
ContohFittedBaseline
Contoh Pemisahan Karakter
Titik Pemotongan Karakter
Kata yang Mudah dikenali
Huruf Dasar Katakana
Huruf Tambahan Katakana
Huruf Gabungan Katakana
General Arsitektur Sistem
Diagram Ishikawa
Diagram Use-Case
Activity Diagram Capture Image
Activity Diagram Crop Image
Activity Diagram OCR Tesseract
Sequence Diagram Sistem
Flowchart Algoritma Horspool
Rancangan Form Splash Screen
Rancangan Form Menu
Rancangan Form Capture Image
Rancangan Form Capture Image
Rancangan Form Tambahan Cropper Image
Rancangan Form Crop Image
Rancangan Form About Me
Tampilan photo
Tampilan Utama Crop
Tampilan Tambahan Crop
Tampilan OCR Tesseract
Tampilan Menu Utama
Tampilan About Us
Halaman
8
10
12
14
15
16
16
24
25
26
28
30
32
37
38
39
40
41
42
43
44
45
47
48
49
50
51
51
52
52
53
Universitas Sumatera Utara
xii
ii
DAFTAR TABEL
Nomor
Tabel
3.1
3.2
3.3
3.4
3.5
3.6
3.7
3.8
3.9
Nama Tabel
Halaman
Dokumentasi Naratif Use-Case Capture Image
Dokumentasi Naratif Use-Case Crop Image
Dokumentasi Naratif Use-Case Prepocessing Sistem
Dokumentasi Naratif Use-Case Segmentasi Citra
Dokumentasi Naratif Use-Case Binerisasi Citra
Dokumentasi Naratif Use-Case Pengenalan Karakter
Dokumentasi Naratif Use-Case Penerjemahan Teks Secara
Online
Dokumentasi NaratifUse-Case Pencocokan String
Hasil Penguji Sistem
31
31
31
32
32
33
33
34
54
Universitas Sumatera Utara
xiii
DAFTAR LAMPIRAN
Nomor
Lampiran
4.1
4.2
Nama Lampiran
Halaman
Liating Program
Curiculum Vitae
A-1
B-1
Universitas Sumatera Utara