2.2 Pemrosesan Citra Digital
Sebuah citra dapat didefinisikan sebagi fungsi dua dimensi,
fx, y
,
x
dan
y
merupakan koordinat
spatial
dan amplitudo dari
f
dengan pasangan koordinat
x, y
disebut intensitas citra atau
gray level
pada titik tersebut. Ketika
x, y
dan nilai amplitudo dari
f
adalah terbatas
finite
, bernilai diskrit maka suatu citra dapat disebut sebagai citra digital
digital image
. Citra digital ini terbentuk dari angka yang terbatas dan dapat diukur
finite
dari setiap elemennya yang memiliki lokasi dan nilai tertentu. Elemen-elemen
tersebut sering kita sebut dengan
picture elements, image elements, pels,
dan
pixels
. Pemrosesan yang terkait dengan citra digital ini dapat didefinisikan sebagai suatu proses yang memiliki
input
dan
output
berupa
image
citra dan sebagai tambahan meliputi juga proses yang mengekstraksi atribut dari citra
hingga sampai pada pengenalan masing-masing objek. Gonzales dan Woods,
2008. Menurut Kadir dan Susanto 2012 secara umum terdapat tiga jenis citra
yang sering digunakan dalam pemrosesan citra yaitu citra berwarna, citra berskala keabuan dan citra biner citra hitam putih.
2.2.1 Citra Berwarna
Citra berwarna merupakan jenis citra yang mempunyai 3 komponen warna, yaitu komponen merah
red
, komponen hijau
green
dan komponen biru
blue
sehingga sering disebut dengan citra RGB
Red Green Blue
. Setiap komponen R merah, G hijau dan B biru memiliki ukuran 8 bit, yaitu berkisar antara 0 sampai dengan 255.
Secara umum, jumlah variasi warna yang dapat dihasilkan dari perpaduan citra RGB adalah 2
b
3
, dengan
b
adalah jumlah bits disetiap komponen citra. Untuk citra 8-bit, jumlah warna yang dapat dihasilkan
sebanyak 16.777.216 warna. Ruang warna RGB biasanya dapat dinyatakan secara grafik dengan RGB
color cube
kubus warna RGB.
Gambar 2.9 Warna RGB dalam Ruang Berdimensi Tiga Gambar 2.9 merupakan representasi dari RGB
color cube
kubus warna RGB dengan 3 simpul utama yaitu warna primer
red
,
green
,
blue
dan warna sekunder
cyan
,
magenta
and
yellow
.
2.2.2 Citra Berskala Keabuan
Citra berskala keabuan atau sering disebut dengan citra
grayscale
merupakan representasi citra yang memiliki gradasi warna hitam dan putih sehingga menghasilkan efek warna keabuan. Intensitas warna
yang dimiliki citra
grayscale
adalah 8 bit, yaitu berskala sekitar antara 0 sampai 255. Intensitas 0 menyatakan warna hitam dan intensitas 255
menyatakan warna putih sehingga intensitas antara 0 sampai 255 menghasilkan wana keabuan.
2.2.3 Citra Biner
Citra biner merupakan jenis citra yang memiliki intensitas 0 atau 1. Intensitas 0 menyatakan warna hitam dan intensitas 1 warna
menyatakan putih. Seringkali citra biner disebut juga sebagai citra
black and white
atau citra hitam putih.
2.3 Pengenalan Pola
Definisi pengenalan pola adalah suatu disiplin ilmu sains yang mempunyai tujuan pada pengklasifikasian objek ke dalam beberapa kelas
atau kategori. Objek tersebut bergantung pada pengaplikasiannya, seperti citra, sinyal maupun tipe objek lainnya yang ingin diklasifikasi. Pengenalan
pola merupakan bagian integral dalam sistem mesin cerdas
machine intelligence
yang dibuat untuk membuat sebuah keputusan Theodoridis dan Koutroumbas, 2009. Suatu sistem dapat dikatakan sebagai sistem
pengenalan pola jika terdiri dari beberapa komponen seperti
data acquisition, preprocessing, feature extraction, feature selection, model selection and
training,
serta
evaluation
Polikar, 2006. Di beberapa kajian penelitian tentang
character recognition
terdapat sebuah proses atau komponen yang dilakukan sebelum ke tahap
evaluation,
yaitu
postprocessing
Patil dan Srinivasan, 2013.
Pengertian dari
data acquisition
adalah suatu proses bagaimana cara kita memperoleh data, cara mengukur data tersebut dan berapa jumlah data
yang diperlukan. Data yang kita dapatkan berasal dari lingkungan sekitar yang kemudian kita ubah kedalam bentuk
digital
sehingga dapat diolah oleh komputer.
Komponen selanjutnya adalah
preprocessing,
yaitu proses ketika data yang sudah diperoleh
acquired data
dikondisikan sedemikian sehingga siap diolah untuk tahap selanjutnya dengan tujuan agar permasalahan mengenai
pengenalan pola dapat dengan mudah diselesaikan. Hal-hal yang biasanya dilakukan dalam tahap
preprocessing
yaitu
outlier removal, data normalization, treating missing data,
dll Theodoridis dan Koutroumbas, 2009.
Definisi dari
feature extraction
adalah mengekstrak atau mengambil fitur-fitur penting dari objek untuk mengurangi dimensi data. Secara singkat,
tujuan dari
feature extraction
adalah menemukan jumlah kecil dari fitur objek
subset
yang mampu membedakan dengan objek lainnya dan yang paling informatif untuk proses klasifikasi. Pentingnya pengurangan dimensi data
dimensionality reduction
di dalam pengenalan pola atau bisa dikatakan sebuah
feature set
kecil tetapi sangat informatif secara signifikan dapat mengurangi kompleksitas dari algoritma yang digunakan untuk proses
klasifikasi, waktu dan beban
memory
untuk menjalankan algoritma. Komponen selanjunya adalah
feature selection
yaitu menyeleksi atau memilih
subset
fitur dari
set
himpunan fitur yang telah diidentifikasi sebelumnya menggunakan algoritma yang digunakan pada tahap
feature extraction
. Pemilihan fitur ini didasarkan pada pencarian
subset
fitur yang mengarah pada performa generalisasi terbaik dari kinerja
classifier
ketika dilatih dengan
subset
tersebut.
Model selection and training
adalah komponen yang dipenuhi setelah data diperoleh lalu melalui tahap
preprocessing,
kemudian ektraksi fitur dan pemilihan fitur yang unik atau informatif dari objek tersebut sehingga telah
siap untuk memilih
classifier
dan algoritma pelatihan
training
yang sesuai. Proses klasifikasi dapat dikatakan pemilihan fungsi aproksimasi yang mampu
memetakan suatu masukan
input
kedalam informasi pada sebuah
class
yang sesuai. Ketika proses klasifikasi ini dikatakan sebagai suatu fungsi
aproksimasi maka berbagai alat matematika
mathematical tools
seperti algoritma optimasi dapat digunakan. Menurut Jain
et al.,
2000 algoritma atau pendekatan yang umum digunakan untuk proses klasifikasi adalah
template matching, statistical classification, syntactic or structural matching,
dan
neural network
. Proses pengenalan pola, khususnya untuk
character recognition
belum selesai pada tahap klasifikasi. Menurut Patil dan Srinivasan
2013 proses mentranslasikan sebuah simbol haruslah diletakkan ke dalam konteks yang
tepat agar membentuk sebuah karakter, kata, kalimat atau bahkan keseluruhan isi dokumen. Hal yang sama juga dipaparkan oleh Widiarti dan Winarko
2012 pada penelitiannya yang secara khusus tentang manuskrip beraksara Jawa dalam hal
grouping
pengelompokan suku kata agar membentuk suatu kata atau kalimat yang benar. Hal tersebut perlu dilakukan karena karakter
penulisan aksara Jawa adalah tanpa spasi sehingga jika tidak dikelompokkan
maka hanya berupa susunan kata, tanpa ada arti atau informasi dari barisan suku kata yang ada.
Bagian komponen terakhir, yaitu setelah
postprocessing
selesai sering disebut sebagai
evaluation
. Performa kinerja dari
classifier
perlu dievaluasi menggunakan data baru untuk menghitung tingkat kebenaran atau akurasi
yang dihasilkan oleh
classifier
. Pertama,
dataset
terlebih dahulu harus dipisah antara data untuk
training
dan
testing
. Terkait dengan pembagian
dataset
untuk memisah data
training
dan data
testing
menjadi penting karena data
testing
harus
independent
dari data
training
agar mampu membentuk model yang relatif tepat untuk membentuk prediksi data baru yang akan datang.
Namun di sisi lain ada perhatian khusus mengenai data yang dipakai untuk
training
dan
testing
yang harus diperhatikan seperti jika sebagian kecil dari data yang digunakan untuk
testing
maka perkiraan dari performa generalisasi dari
classifier
mungkin tidak dapat diandalkan
unreliable
, sedangkan jika sebagian besar data dipakai untuk
testing
maka berakibat pada sedikitnya data latih
training
atau sering disebut dengan
poor training
.
2.4
Data Acquisition
Data acquisition
merupakan suatu proses yang kita kerjakan untuk memperoleh data, cara mengukur data tersebut dan berapa jumlah data yang
diperlukan. Data tersebut bisa diperoleh dengan memotret menggunakan kamera, sensor satelit, atau menggunakan sensor lainnya. Data yang kita
dapatkan berasal dari lingkungan sekitar yang kemudian kita ubah kedalam bentuk
digital
sehingga dapat diolah oleh komputer.
2.5
Preprocessing
2.5.1
Cropping Cropping
pada sebuah citra merupakan proses yang dilakukan untuk memotong pada koordinat tertentu yang berada pada area citra
tersebut. Proses pemotongan citra
cropping
termasuk dalam kategori operasi geometri citra. Secara umum hanya dibutuhkan 2 buah
koordinat untuk melakukan proses pemotongan yaitu koordinat awal dan koordinat akhir. Koordinat awal merupakan titik pojok kiri atas
citra yang akan dipotong sedangkan koordinat akhir merupakan titik pojok kanan bawah citra yang akan dipotong. Tiap-tiap
pixel
yang ada pada koordinat tersebut menjadi sebuah citra baru yang merupakan
hasil dari pemotongan citra yang dilakukan. 2.5.2
Grayscaling
Citra
grayscale
atau citra keabu-abuan memiliki nuansa warna abu-abu yang berada diantara warna hitam dan putih. Citra
graysclace
direpresentasikan dengan variasi nilai intensitas tertentu yang berada dalam interval 0 hingga 255. Proses
grayscaling
mengubah citra berwarna yang memiliki 3 komponen warna R, G dan B menjadi 1
komponen warna dengan memberikan sebuah nilai bobot kepada 3 komponen R, G dan B kemudian dijumlahkan untuk memperoleh
intensitas warna abu-abu. Persamaan yang umum dipakai untuk mengubah citra berwarna menjadi citra
grayscale
menggunakan standar NTSC
National Television System Committee
yang dapat dinyatakan sebagai berikut:
, = .
, + .
� , + .
∗ ,
2.1 Dengan:
gx,y
= citra yang akan dikonversi menjadi
grayscale Rx,y
= nilai
pixel
pada lokasi
x
,
y
untuk komponen R
Gx,y
= nilai
pixel
pada lokasi
x
,
y
untuk komponen G
Bx,y
= nilai
pixel
pada lokasi
x
,
y
untuk komponen B 2.5.3
Binarization Binarization
merupakan sebuah proses untuk mengubah citra
grayscale
menjadi citra hitam putih. Citra perlu diubah kedalam format
binary
karena informasi mengenai warna tidak dibutuhkan, selain itu juga untuk mengurangi dimensi data dan kompleksitas komputasi serta
data yang diproses hanya dalam format 0 atau 1. Secara umum suatu