Optical Character Recognition LANDASAN TEORI PENGEMBANGAN APLIKASI MOBILE PENTERJEMAH BAHASA KOREA-INDONESIA DENGAN OCR DAN BING TRANSLATE API.

13 BAB III LANDASAN TEORI Pada bab ini akan dijelaskan mengenai teori dasar yang digunakan oleh penulis sebagai acuan dalam pengembangan aplikasi.

3.1 Optical Character Recognition

Optical Character RecognitionOCR dapat didefinisikan sebagai analisis elektronik dari sebuah citra dalam upaya mengidentifikasikan wilayah yang memiliki informasi tekstual dan ekstraksi atau pengenalan teks dari citra yang diberikanJain et al, 2013. Definisi OCR secara sederhana adalah proses pengenalan teks hasil print, tulisan tangan, hasil mesin ketik dan sebagainya dari suatu berkas hard copy yang diubah ke berkas digitalLian, 2009. Ciri aplikasi OCR yang telah sering digunakan berkaitan dengan pendokumentasian citra. Citra dari halaman- halaman buku, dokumen sah, catatan medis, dan sebagainya diperoleh melalui scanner flatbed kemudian diproses oleh OCRLian, 2009. Pengenalan optis dilakukan secara off-line setelah penulisan atau proses pencetakan selesai, berkebalikan dengan pengenalan on- line dimana komputer mengenali karakter saat digambarkan. Hasil pengenalan karakter dari tulisan tangan maupun cetak komputer tergantung pada kualitas dari input data tersebutEikvil,1993. Terdapat beberapa variabel yang mempengaruhi kualitas data input seperti yang sudah disebutkan, diantaranya kejelasan bentuk karaktertulisan tangan dan atau font, kualitas 14 alat cetakprinter, kualitas citrapiksel, latar, dan warna. Semakin baik mutu data input, maka performa OCR akan mendekati kemampuan manusia dalam mengenali karakter, sebaliknya, OCR akan sangat sukar bahkan gagal melakukan pendeteksianEikvil,1993. Pada umumnya sistem OCR terdiri dari beberapa komponen yang dapat dilihat pada gambar 3.1. Gambar 3.1 Flowchart Tahapan Umum Pada Sistem OCR Jain et al, 2013 Preprocessing atau pemrosesan awal dilakukan terhadap gambar bertujuan menghasilkan data yang mudah dikenali sistem OCR secara akuratJain et al, 2013. Secara sederhana, preprocessing akan menghilangkan objek yang tidak diinginkan pada gambar bukan karakter yang akan dikenali dan untuk memperbaiki kualitas gambarAprilia, 2012. Perbaikan mutu citra tersebut meliputi memisahkan teks dengan latar belakang hitam diatas putih, penyamaan ukuran seperti 12 pt. 300dpi, penajaman karakter Jain et al, 2013. Secara umum Preprocessing yang dilakukan terhadap citra diantaranya grayscaling, menghilangkan cacatnoise removal, dan thresholding. Grayscaling adalah tahap awal image preprocessing, yaitu mengubah gambar berwarna menjadi gambar yang hanya memiliki derajat keabuan. Selanjutnya, dilakukan noise filtering, yakni proses mengurangi cacatnoise. Proses 15 akhir dari image preprocessing adalah thresholding yang berguna memisahkan objek yang diamati dengan latar belakangnya dengan cara mengubah gambar menjadi hitam putihAprilia, 2012. Menurut Jain, dkk., Preprocessing citra dapat melibatkan satu atau lebih dari langkah berikut Jain et al, 2013 : 1. Reduksi noise Dibandingkan dengan pemindai optikopical scanner, sifat kamera digital lebih cenderung menangkap noise karena mode operasinya. Sensor citra pada kamera digital charge-coupled device CCD dan atau Complementary Metal Oxide Semiconductor CMOS tidak mampu menangani keadaan gelap dan noise yang tertangkap. Dalam keadaan pencahayaan yang sedikit atau ketika sensor menerima sedikit cahaya disebabkan bukaan lensa lebih kecil akan mengakibatkan lebih banyak noise yang terdeteksi. Jika menggunakan kamera dengan resolusi rendah, kemungkinan garis karakter yang muncul akan tipis dan menyatu dengan latar belakang. Bila teknik binerisasi dilakukan pada gambar tersebut kemungkinan besar garis-garis karakter tidak dikenali sebagai bagian latar depanforeground. Masalah tersebut dapat diatasi dengan reduksi noise dan perbaikan mutu citra sebelum binerisasi citra. 2. Skew dan Perbaikan Perspektif perspective correction Penyimpangan perspektif pada citra yang diambil dari kamera tidak dapat dihindari dan perbaikan perspektif sangat dibutuhkan sebab masalah ini memberi pengaruh 16 langsung terhadap kehandalan dan efisiensi proses segmentasi dan ekstraksi fitur. 3. Binerisasi Sebuah proses konversi citra berwarna atau citra grayscale ke suatu citra bi-level. Setiap piksel dikategorikan sebagai salah satu latar depan atau latar belakangSezgin, 2004. Thresholding adalah metode binerisasi citra yang paling populer dan diimplementasikan melalui 2 cara berikut : Global yakni diterapkan pada citra secara menyeluruh. Setiap piksel dikategorikan menggunakan karakteristik citra yang umumglobal. Algoritma Thresholding Otsu global sering menjadi pilihan dalam hal ini. Local Adaptive Thresholding yaitu nilai threshold yang berbeda untuk setiap piksel citra diperkirakan berdasar karakteristik lokal. Pada tahap ekstraksi fitur, setiap karakter diwakili vektor fitur yang akan menjadi identitas karakter tersebut. Dalam proses pelatihan mesin OCR, vektor fitur dari karakter-karakter dipersiapkan sebagai template untuk digunakan pada tahap pencocokan fiturmatching feature dari simbol-simbol pada sebuah citra. Metode ekstraksi fitur menganalisis input citra dan menyeleksi satu set fitur yang secara unik mengidentifikasi dan mengklasifikasikan karakter. Tujuan dari ekstraksi fitur adalah mengekstrak satu set 17 fitur yang akan memaksimalkan proses pengenalanJain et al, 2013. Tahap pengenalanMatching and Discrimination melakukan konversi citra dari setiap karakter ke dalam kode karakter yang sesuai dengan cara menyesuaikanmencocokkan fitur karakter yang diperoleh dari proses ekstraksi fitur dengan fitur-fitur dari template karakter dan hasilnya dipisahkan ke dalam kode karakter tertentu. Algoritma pengenalan dapat menghasilkan keluaran yang bervariasi dari suatu citra dan menyediakan analisis probabilitas yang sama. Contoh, pengenalan citra dari karakter “1” dapat menghasilka n “1”, “1” “”, “\” kode dan mencatat probabilitas dari setiap kejadianJain et al, 2013.

3.2 Tesseract