Template-Matching Topological Analysis Peralatan Imaging

2. Audio-Video Capture

Teknologi ini harus dapat mengkonversi dokumen kertas ke dalam image digital dan indeks data. Image disimpan sebagai file TIFF pada sistem penyimpanan optikal dan diindeks serta disimpan di dalam database relational.

3. OCRICR

Bagian kunci dari dokumen scanning adalah optical character recognition OCR. OCR merupakan teknologi tambahan pada scanner dokumen. OCR berarti objek teks dalam dokumen dikonvert dari bit-mapped image ke dalam representasi teks seperti ASCII. Scanner memisahkan dokumen ke dalam elemen gambar yang disebut pixels. Kumpulan pixel dari karakter alphanumeric dibaca oleh software OCR, dan diterjemahkan ke dalam karakter ASCII dengan tepat atau ke dalam kode lainnya yang dapat dibaca oleh mesin. Ada dua metodologi atau pendekatan untuk menangkap karapter huruf, yaitu : template-matching dan topological analysis.

1. Template-Matching

Template-matching dikenal sebagai pencocok huruf atau pencocok matriks, merupkan pendekatan yang sangat sederhana. Karakter teks secara individu diproses dengan dicocokkan agar berada dalam sistem penyimpanan template karakter. Hal ini membuat huruf dikenali oleh sistem. Produksi dengan pendekatan ini dapat enyimpannya dimana saja dari satu huruf monofont machines hinga beberapa huruf multifont machines. Pencocokan huruf lebih cepat daripada topological berbasis OCR, tetapi lebih kaku.

2. Topological Analysis

Pattern Recognition atau Feature Extraction. Pattern recognition atau disebut juga extraction tidak menggunakan tamplete. Ini menggunakan 22 pendekatan OCR. Aturannya, konstruksi karakter berpasangan dengan image memproses alogaritma yang dapat mendeteksi tepi karakter yang dicetak. Image yang discan pada teks menjadi elemen tersendiri. Bagian dari katakter dan antar bagiannya dibandingkan untuk membuat aturan yang berhubungan dengan konstruksi karakter. ICR. OCR seringkali dibingungkan dengan istilah intelligent character recognition ICR. ICR mencakup handwriting recognition yang biasa disebut handwriting ICR. Handwriting ICR tidak lagi dibingungkan oleh handwriting recognition dari pena, dengan menggunakan pensil berbasis komputer. Sistem berbasis pena secara signifikan kurang sensitive dan mensyaratkan karakter secara individu dipelajari. Sistem berbasis kertas juga bersandar pada gerak, kecepatan dan rangkaian tulisan tangan yang diciptakan. Machine-Learned Fragment Analysis MLFA . MLFA merupakan teknologi yang diciptakan oleh Exvervision, aslinya untuk mengenali karakter Kanji. MLFA menganalisis karakter sebagai kumpulan feagmen, lebih dari sekedar unit tungal. Hasilnya lebih teliti dan lebih akurat dalam menganalisis karakter. OCR kemudia dapat digunakan untuk karakter Kanji atau Cyrillic. Fitur Tambahan OCR Lexical Tools. Keakuratan OCA meningkat dengan integrasi lexical tools yang dapat memutuskan secara cerdas untuk berhubungan dengan karakter yang tidak dapat ditangkap secara cepat. Memungkinkan penterjemahan kata yang tidak lengkap dalam penelusuran ke dalam kamus atau site lexicon. Trainable OCR. Trainable OCR bekerja diantara pencocok huruf atau pattern recognition sebagai metodologi pokok untuk OCR. Trainable OCR menyajukan mekanisme untuk sistem mempelajari huruf dan karakter baru 23 secara dinamis. Tidak seperti omnifont, trainable OCR membutuhkan intervensi operator. Sistem menyimpan arus template atau pattern lain untuk karakter yang tidak dikenal dan mendesak operator untuk menterjemahkan karakter secara tepat. Sistem menjadi “pintar” dan kurang membutuhkan input operator. Proses pelatihan biasanya lambat dan membosankan Optical Mark Recognition OMR. OMR disebut juga mark sense merupakan satu teknologi OCR tertua dan sangat sederhana, biasanya menggunakan scantron bubble-sheet yang dikenal. Memerlukan formulir yang distandarisasi dan scanner resolusi rendah, OMR menjadi sangat ekonomis tetapi juga terbatas. Aplikasi menggunakan OMR untuk mengenali check-box dari quesiner dan survey. Tidak seperti scantron tradisional, formulir diciptakan dengan produknya dapat sisusun secara virtual, diletakan pada pensil dan tidak memerlukan bubble atau box untuk meletakannya secara lengkap. Kelemahan pada formulir dari scantron adalah kecepatan rekognisi yang lambat dan keakuratan yang rendah. Aplikasi lain dari OMR adalah menggunakan hieroglyphics dengan beragam intruksi untuk menerima menangkap komputer. Double-Sided Scanning. Kemampuan untuk menscan dan menyusun teks dari dua sisi dokumen yang dicetak yang dapat disimpan lebih lama dalam situasi dimana formulir dari input teks merata. Sisi tungal halaman pada tumpukan kertas discan dan diproses. Tumpukan kertas kemudian dibalik dan teks pada sisi lain discan dan diproses. Software secara automatis akan menyusun teks ke dalam urutan yang tepat. Support for Columnar Input. Biasanya, cetakan kertas diformat dalam tampilan kolom sebagai contoh, surat kabar. OCR “membaca” teks dari kiri ke kanan, dari atas ke bawah. Tanpa dukungan untuk memformat kolom, input dalam format kolom menghasilkan produk yang salah, dimana teks elektronik, melalui teknik yang benar disimpan dalam urutan semirandom, 24 tetapi semua ketidakteraturan itu dapat dibaca dan diperkecil. Sistem scanner OCR mendukung kolom teks yang akan dikenali dengan memproses teks dari kiri ke kanan, dari atas ke bawah, sebelum kemudia halam pindah ke kanan, untuk kolom teks berikutnya. Dengan cara ini teks disimpan dalam urutan yang siap untuk dibaca. Apabila dokumen memiliki kolom teks, tetapi kita tidak memiliki system scanner OCR yang dapat mengenali dan mendukung input formulir ini secara automatis, tutupi kolom pada halaman dan scan dokumen per kolom, atau dokumen OCR dengan satu per satu kemudian secara manual dibalik dan dikonfiguraikan lagi blok teks berdasarkan urutan yang tepat. Automatic Page Decomposition. Software ini menangani secara cerdas dokumen campuran, dokumen terdiri atas image dan grafik sebagaimana teks. Dukungan pada feture ini tersedia dalam beragam tingkatan. Beberapa produk membutuhkan temlate untuk secara manual menggambar dan mengidentifikasi bagian teks dan non teks dalam dokumen secara terpisah. Kemampuan membedakan image dan teks secara automatis dalam satu langkah didukung oleh produk OCR tingkat tinggi dalam jumlah yang besar. Secara sederhana, sistem memproses dokumen dengan scanner dua kali : satu sebagai image dan satu lagi software OCR. Automatic Conversion into Proprietary Format. Asalnya hasil teks OCR adalah karakter ASCII. Kini produk akan menyimpan teks secara langsung kedalam format khusus. Penyimpanan ini menggunakan waktu dan usaha pengimporan teks ASCII ke dalam paket lain seperti word pecessor atau database. Karakter asli seperti cetak tebal, paragraph dan garis bawah ditampilkan. Beberapa produk juga mendukung MS-Windows, Dynamic Data Exchange DDE dimana teks disimpan secara langsung dalam aplikasi tertentu. Ada kemiripan beberapa produk “smart form” menyimpan data ke dalam database, membutuhkan sedikit atau tanpa interaksi pengguna. 25 Neural Network technology. Dengan menggunakan alogaritma fuzzy yang membantu software mempelajari karakter sebagaimana yang ditangkap, aplikasi “neural network” dapat menangani jenis dan ukuran faset yang sangat beragam. Di luar standar teknologi omnifont, neural network memaparkan model pola manusia melalui penciptaan yang menghubungkan ide dan konsep. Keuntungan utama dari neural network berbasis OCR adalah dapat dikenalinya dokumen secara luas, termasuk yang memiliki kualitas yang buruk. Kompleksitas teknologi neural network membutuhkan penghitungan dalam jumlah besar : jadi aplikasi relatif lambat. Dengan dapat dikenalinya dokumen dengan kualitas rendah, termasuk fax, neural network OCR memiliki standar lebih cepat daripada standar OCR, ia juga dapat mengenali image, sementara produk lain tidak. TWAIN. TWAIN merupakan standar API yang dapat memfasilitasi integrasi semua peralatan, seperti scanner dan optical drive ke dalam sistem imaging. Kombinasi dengan aplikasi scanner, TWAIN menempatkan scanning untuk secara langsung ditampilkan dalam program, seperti Aldus’Page Maker. Produk ini biasanya memiliki targer pada pengguna akhir level pemula atau entri level OCR. Semuanya dintegrasikan dengan program berbasis teks dan OCR untuk ditampilkan secara langsung di dalam program. Smart Form. Smart form merupakan jenis produk terbaru yang menggunakan ICR atau OMR. Produk ini dapat mengentri dan menontrol data dalam PC yang jauh. Formulir difax kedalam komputer dengan faxboard dan memerlukan software, yang merespon intruksi berdasarkan pada sejumlah hieroglyphics tulisan Mesir, bentuk yang dapat secara terpisah atau lengkap masuk kedalam sejumlah perintah. Banyak platform produk yang sesuai dengan RDBMS dengan informasi yang difax dari beberapa platform, termasuk teks tilisan tangan dalam beberapa kasus. Dengan integrasi mesin fax sebadai alat input utama, smart form 26 mengurangi kebutuhan untuk mengunci kembali prosentase data dalam jumlah besar.

4. COLD Computer Output to Laser Disk