Data Capture Analisis Tingkat Fitur

11 mengenali teks beserta atributnya, misalnya ukuran dan font dari teks seperti yang dapat dilakukan oleh mesin pengenal karakter OCR. Sementara pengolahan grafik berkait dengan komponen garis dan simbol-simbol yang membentuk diagram, logo, dan lain sebagainya. Dan lebih lanjut O’Gorman dan Kasturi memberikan tahapan- tahapan proses analisis citra dokumen seperti terlihat dalam Gambar 2.2. Gambar 2.2 Langkah-langkah Proses Analisis Dokumen

2.2.1 Data Capture

Pada tahap data capture, data dari dokumen kertas akan dibaca dengan alat scan optis dan hasilnya disimpan sebagai file dalam bentuk piksel. Terdapat tiga kemungkinan nilai piksel, yaitu berupa nilai ON1 atau OFF 0 untuk citra biner, Lembar Dokumen Data Capture Pengolahan Tingkat Piksel Analisis Tingkat Fitur Pengenalan dan Analisis Teks Pengenalan dan Analisis Grafis Dokumen Hasil 12 atau suatu bilangan bulat antara 0-255 untuk citra grayscale, atau tiap piksel terdiri atas 3 komponen bilangan bulat antara 0-255 untuk komponen wana merah, komponen warna hijau, dan komponen warna biru untuk citra berwarna. Barisan nilai piksel yang diperoleh pada tahap ini, kemudian akan diproses lebih lanjut untuk mendapatkan suatu informasi seperti yang diinginkan. 2.2.2 Pengolahan Tingkat Piksel Tahap pengolahan tingkat piksel adalah suatu tahap yang bertujuan untuk menyiapkan dokumen citra, serta membuat fitur perantara untuk membantu mengenali citra. Langkah- langkah yang dilakukan adalah : a. Proses binarisasi: memisahkan citra utama dari citra latar belakang yang tidak dibutuhkan. b. Pengurangan noise: menghilangkan piksel-piksel yang tidak penting untuk mengurangi kesalahan pengenalan obyek. c. Segmentasi: memisahkan komponen teks dan grafis dari sebuah dokumen. Pada komponen teks segmentasi dilakukan dengan memisahkan kolom, paragraf, kata dan karakter. Pada komponen grafis, segmentasi akan memisahkan simbol dan garis. d. Thinning dan deteksi area: Thinning merupakan proses untuk mengurangi komponen citra yang tidak penting agar proses analisis dan pengenalan dapat dilakukan dengan lebih efisien. Thinning dikenakan terhadap kurva tebal yang akan ditipiskan. Deteksi area dikenakan pada obyek yang diblok dengan warna sedangkan yang diperlukan hanya batas area tersebut. 13 e. Chain coding dan vektorisasi: mengubah data kerangka dan kontur yang ada menjadi piksel On yang saling berantai terkait sehingga penyimpanan obyek menjadi lebih efisien.

2.2.3 Analisis Tingkat Fitur

Analisis tingkat fitur akan menghasilkan informasi yang lebih dapat dipahami manusia. Langkah- langkah yang dilakukan adalah : a. Pengelompokan garis dan kurva: menentukan garis dan kurva yang saling berhubungan serta memisahkan garis dan kurva yang tidak sekelompok. b. Poligonisasi: mengolah kurva dan garis lurus yang ada sehingga akan mendekati aslinya dan dapat disimpan dengan data yang lebih ringkas. c. Deteksi titik kritis. mengenali suatu bentuk kurva berdasarkan titik kritis yang ditentukan.

2.2.4 Analisis Teks