11
mengenali teks beserta atributnya, misalnya ukuran dan font dari teks seperti yang dapat dilakukan oleh mesin pengenal karakter OCR. Sementara pengolahan grafik
berkait dengan komponen garis dan simbol-simbol yang membentuk diagram, logo, dan lain sebagainya. Dan lebih lanjut O’Gorman dan Kasturi memberikan tahapan-
tahapan proses analisis citra dokumen seperti terlihat dalam Gambar 2.2.
Gambar 2.2 Langkah-langkah Proses Analisis Dokumen
2.2.1 Data Capture
Pada tahap data capture, data dari dokumen kertas akan dibaca dengan alat scan optis dan hasilnya disimpan sebagai file dalam bentuk piksel. Terdapat tiga
kemungkinan nilai piksel, yaitu berupa nilai ON1 atau OFF 0 untuk citra biner,
Lembar Dokumen
Data Capture
Pengolahan Tingkat Piksel
Analisis Tingkat Fitur
Pengenalan dan Analisis Teks
Pengenalan dan Analisis Grafis
Dokumen Hasil
12
atau suatu bilangan bulat antara 0-255 untuk citra grayscale, atau tiap piksel terdiri atas 3 komponen bilangan bulat antara 0-255 untuk komponen wana merah,
komponen warna hijau, dan komponen warna biru untuk citra berwarna. Barisan nilai piksel yang diperoleh pada tahap ini, kemudian akan diproses lebih lanjut untuk
mendapatkan suatu informasi seperti yang diinginkan. 2.2.2
Pengolahan Tingkat Piksel
Tahap pengolahan tingkat piksel adalah suatu tahap yang bertujuan untuk menyiapkan dokumen citra, serta membuat fitur perantara untuk membantu
mengenali citra. Langkah- langkah yang dilakukan adalah : a.
Proses binarisasi: memisahkan citra utama dari citra latar belakang yang tidak dibutuhkan.
b. Pengurangan noise: menghilangkan piksel-piksel yang tidak penting untuk
mengurangi kesalahan pengenalan obyek. c.
Segmentasi: memisahkan komponen teks dan grafis dari sebuah dokumen. Pada komponen teks segmentasi dilakukan dengan memisahkan kolom, paragraf, kata
dan karakter. Pada komponen grafis, segmentasi akan memisahkan simbol dan garis.
d. Thinning dan deteksi area: Thinning merupakan proses untuk mengurangi
komponen citra yang tidak penting agar proses analisis dan pengenalan dapat dilakukan dengan lebih efisien. Thinning dikenakan terhadap kurva tebal yang
akan ditipiskan. Deteksi area dikenakan pada obyek yang diblok dengan warna sedangkan yang diperlukan hanya batas area tersebut.
13
e. Chain coding dan vektorisasi: mengubah data kerangka dan kontur yang ada
menjadi piksel On yang saling berantai terkait sehingga penyimpanan obyek menjadi lebih efisien.
2.2.3 Analisis Tingkat Fitur
Analisis tingkat fitur akan menghasilkan informasi yang lebih dapat dipahami manusia. Langkah- langkah yang dilakukan adalah :
a. Pengelompokan garis dan kurva: menentukan garis dan kurva yang saling
berhubungan serta memisahkan garis dan kurva yang tidak sekelompok. b.
Poligonisasi: mengolah kurva dan garis lurus yang ada sehingga akan mendekati aslinya dan dapat disimpan dengan data yang lebih ringkas.
c. Deteksi titik kritis. mengenali suatu bentuk kurva berdasarkan titik kritis yang
ditentukan.
2.2.4 Analisis Teks