Pengenalan Pola Normalisasi terhadap Orientasi

9

2.1 Pengenalan Pola

Pengenalan pola pattern recognition merupakan salah satu komponen penting dalam sistem pengenalam citra dokumen. Tujuan utama dari pengenalan pola adalah mengklasifikasikan obyek yang diberikan sebagai input ke dalam salah satu dari kelas-kelas yang sudah ditentukan sebelumnya. Proses pengenalan pola terdiri dari tiga fase utama, yaitu segmentasi citra, ekstraksi ciri, dan klasifikasi. Fase segmentasi citra adalah suatu fase yang bertujuan memisahkan citra yang menjadi pusat perhatian dari bagian citra lainnya. Fase ekstraksi ciri adalah fase dilakukannya pengukuran terhadap citra. Pengukuran dimaksudkan untuk memperoleh suatu nilai properti dari suatu obyek. Ciri adalah fungsi dari satau atau beberapa nilai properti yang dapat dipergunakan untuk menyatakan suatu karakter tertentu dari obyek. Fase ekstraksi ciri akan menghasilkan beberapa ciri yang diwujudkan dalam bentuk suatu vektor ciri. Vektor ciri hasil ekstraksi ciri ini dipergunakan oleh fase klasifikasi. Output dari fase klasifikasi adalah suatu keputusan termasuk kelas apakah suatu obyek itu. Dalam proses klasifikasi setiap obyek digolongkan ke dalam salah satu dari kelas-kelas yang sudah ditetapkan sebelumnya.

2.2 Analisis Citra Dokumen

Banyak dokumen yang memiliki format karakter yang berbeda dengan format karakter karakter latin, misal dokumen yang ditulis dalam format karakter Cina, India, Thailand, Jawa dan sebagainya. Akibatnya dokumen tersebut hanya dapat dibaca oleh orang yang memahami format karakter tersebut. Untuk kepentingan 10 tersebut, dibutuhkan sistem analisis citra dokumen untuk menerjemahkan dokumen dengan bentuk karakter tertentu agar menghasilkan sebuah deskripsi yang dapat dipahami oleh pembaca. Sistem analisis citra dokumen juga dapat digunakan untuk kepentingan lain, misal untuk membaca karakter dalam amplop surat sehingga surat dapat dipilah-pilah, atau untuk mengubah koleksi buku di perpustakaan tradisional ke dalam format digital. Tujuan utama dari kegiatan analisis citra dokumen adalah untuk mengenali komponen-komponen teks ataupun gambar di dalam suatu dokumen. Analisis citra dokumen secara garis besar dibagi menjadi dua kategori analisis, yaitu analisis untuk teks dan gambar, seperti terlihat dalam Gambar 2.1 O’Gorman dan Kasturi, 1997. Pengenalan Karakter Analisis Layout Halaman Pengolahan Garis Pengolahan Simbol dan Wilayah Gambar Pengolahan Teks Pengolahan Gambar Pengolahan Dokumen Teks Kecondongan, baris, alinea, paragraf Garis lurus, sudut, kurva Daerah Gambar Gambar 2.1 Hirarki Pemrosesan Dokumen. Pengolahan teks berkait dengan bagian teks dari citra dokumen. Beberapa tugas yang terkait dengan pengolahan teks adalah menentukan kecondongan teks, menemukan kolom-kolom, paragraf-paragraf, baris-baris teks, dan kata, dan akhirnya PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 11 mengenali teks beserta atributnya, misalnya ukuran dan font dari teks seperti yang dapat dilakukan oleh mesin pengenal karakter OCR. Sementara pengolahan grafik berkait dengan komponen garis dan simbol-simbol yang membentuk diagram, logo, dan lain sebagainya. Dan lebih lanjut O’Gorman dan Kasturi memberikan tahapan- tahapan proses analisis citra dokumen seperti terlihat dalam Gambar 2.2. Gambar 2.2 Langkah-langkah Proses Analisis Dokumen

2.2.1 Data Capture

Pada tahap data capture, data dari dokumen kertas akan dibaca dengan alat scan optis dan hasilnya disimpan sebagai file dalam bentuk piksel. Terdapat tiga kemungkinan nilai piksel, yaitu berupa nilai ON1 atau OFF 0 untuk citra biner, Lembar Dokumen Data Capture Pengolahan Tingkat Piksel Analisis Tingkat Fitur Pengenalan dan Analisis Teks Pengenalan dan Analisis Grafis Dokumen Hasil 12 atau suatu bilangan bulat antara 0-255 untuk citra grayscale, atau tiap piksel terdiri atas 3 komponen bilangan bulat antara 0-255 untuk komponen wana merah, komponen warna hijau, dan komponen warna biru untuk citra berwarna. Barisan nilai piksel yang diperoleh pada tahap ini, kemudian akan diproses lebih lanjut untuk mendapatkan suatu informasi seperti yang diinginkan. 2.2.2 Pengolahan Tingkat Piksel Tahap pengolahan tingkat piksel adalah suatu tahap yang bertujuan untuk menyiapkan dokumen citra, serta membuat fitur perantara untuk membantu mengenali citra. Langkah- langkah yang dilakukan adalah : a. Proses binarisasi: memisahkan citra utama dari citra latar belakang yang tidak dibutuhkan. b. Pengurangan noise: menghilangkan piksel-piksel yang tidak penting untuk mengurangi kesalahan pengenalan obyek. c. Segmentasi: memisahkan komponen teks dan grafis dari sebuah dokumen. Pada komponen teks segmentasi dilakukan dengan memisahkan kolom, paragraf, kata dan karakter. Pada komponen grafis, segmentasi akan memisahkan simbol dan garis. d. Thinning dan deteksi area: Thinning merupakan proses untuk mengurangi komponen citra yang tidak penting agar proses analisis dan pengenalan dapat dilakukan dengan lebih efisien. Thinning dikenakan terhadap kurva tebal yang akan ditipiskan. Deteksi area dikenakan pada obyek yang diblok dengan warna sedangkan yang diperlukan hanya batas area tersebut. 13 e. Chain coding dan vektorisasi: mengubah data kerangka dan kontur yang ada menjadi piksel On yang saling berantai terkait sehingga penyimpanan obyek menjadi lebih efisien.

2.2.3 Analisis Tingkat Fitur

Analisis tingkat fitur akan menghasilkan informasi yang lebih dapat dipahami manusia. Langkah- langkah yang dilakukan adalah : a. Pengelompokan garis dan kurva: menentukan garis dan kurva yang saling berhubungan serta memisahkan garis dan kurva yang tidak sekelompok. b. Poligonisasi: mengolah kurva dan garis lurus yang ada sehingga akan mendekati aslinya dan dapat disimpan dengan data yang lebih ringkas. c. Deteksi titik kritis. mengenali suatu bentuk kurva berdasarkan titik kritis yang ditentukan.

2.2.4 Analisis Teks

Terdapat dua tipe analisis yang dapat diberlakukan terhadap teks pada dokumen. Yang pertama adalah pengenalan karakter character recognition untuk mengenali karakter dan kata dari citra berbasis bit. Yang kedua adalah analisis layout halaman untuk menentukan format teks dan menentukan arti, yang berhubungan dengan posisi dan fungsi dari teks. Dalam analisis layout halaman yang dilakukan adalah : a. Perkiraan kemiringan: mengelola karakter yang memiliki sudut kemiringan tertentu sehingga nantinya akan dapat diolah untuk dikenali. b. Analisis layout: memilah karakter dalam dokumen untuk dikelompokkan dalam paragraf, judul, atau daftar isi dan yang lainnya. 14

2.3. Normalisasi terhadap Orientasi

Normalisasi terhadap orientasi dilakukan untuk mengurangi pengaruh kesalahan orientasi saat pembacaan data citra dokumen dengan scanner. Tidak dapat dijamin bahwa pengguna akan selalu menempatkan dokumen tegak lurus dengan sumbu utama. Oleh karena itu, perlu dilakukan perputaran atau rotasi sebesar sudut penyimpangan θ sebagai langkah koreksi terhadap penyimpangan orientasi. Rotasi suatu citra dengan sudut sebesar θ yang berlawanan arah dengan arah jarum jam, lihat gambar 2.3 dapat dilakukan dengan mempergunakan rumus 2.1. x’ = x cos θ – y sinθ 2.1 y’ = x sin θ + y cosθ θ x, y x, y Gambar 2.3. Perputaran citra dengan sudut θ Untuk mengetahui seberapa besar penyimpangan orientasi suatu obyek dengan sumbu utama, dapat dilakukan dengan mempergunakan orientasi momen. Nilai θ dapat ditentukan dengan rumus 2.2. ⎥ ⎥ ⎦ ⎤ ⎢ ⎢ ⎣ ⎡ − = − 2 , , 2 1 , 1 1 2 tan 2 1 µ µ µ θ 2.2 PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI 15 dengan q p m n q p n n m m , − − = ∑∑ µ 2.3 merupakan momen pusat ordo p,q, dengan m , n merupakan titik pusat momen yang didefinisikan sebagai berikut: ∑∑ = m n m N m 1 , ∑∑ = m n n N n , 1 2.4 N menyatakan jumlah piksel pada citra, m dan n menyatakan koordinat obyek dari citra. Rumus 2.4 hanya berlaku untuk citra biner.

2.4. Binarisasi