Implementasi Content Based Video retrieval Menggunakan Speede-Up Robust Features (Surf)

BAB II
LANDASAN TEORI

2.1. Video

Video adalah teknologi untuk menangkap, merekam, memproses, mentransmisikan dan
menata ulang citra bergerak. Teknologi ini biasanya menggunakan film seluloid, sinyal
elektronik, atau media digital. Video juga dapat diartikan sebagai gabungan citra – citra
mati yang dibaca berurutan dalam suatu waktu dengan kecepatan tertentu. Citra – citra
mati tersebut dinamakan frame dan kecepatan pembacaan gabungan citra disebut
dengan frame rate, dengan satuan fps (frame per second) (Hashlinda et al. 2012).
Video digital pada dasarnya tersusun atas serangkaian frame yang ditampilkan
pada layar dengan kecepatan tertentu sesuai frame rate yang diberikan (dalam
frame/second). Masing masing frame merupakan citra digital (Hashlinda et al. 2012).
Karateristik suatu video digital akan menentukan kualitas video dan akan
dijelaskan sebagai berikut (Hashlinda et al. 2012) :
1. Frame Rate, menunjukkan jumlah frame tiap detik pada suatu video yang dinyatakan
dengan frame per second. Video yang berkualitas baik akan memiliki frame rate
yang tinggi, setidaknya harus menampilkan sedikitnya 25 frame per second.
2. Resolusi, adalah ukuran sebuah frame. Resolusi dinyatakan dalam pixel – pixel.
Semakin tinggi resolusi, semakin baik kualitas video yang dihasilkan, dalam artian

bahwa ukuran fisiknya sama, video dengan resolusi tinggi akan lebih detail.

3. Kedalaman Bit, menentukan jumlah bit yang digunakan untuk merepresentasikan
tiap pixel pada sebuah frame. Kedalaman bit dinyatakan dalam bit per pixel. Semakin
banyak bit yang digunakan untuk merepresentasikan sebuah piksel, yang berarti
semakintinggi kedalaman pixelnya, maka semakin baik pula kualitasnya.

7
Universitas Sumatera Utara

8

2.1.1. Citra

Citra atau image adalah suatu matriks dimana indeks baris dan kolomnya menyatakan
suatu titik pada citra tersebut dan elemen matriksnya (yang disebut sebagai elemen
gambar / pixel) menyatakan tingkat keabuan pada titik tersebut (Sutoyo & Mulyanto,
2009).
Suatu citra dapat didefenisikan sebagai fungsi F(x,y) berukuran M baris dan N
kolom, dengan x dan y adalah koordinat spasial dan amplitudo f di titik koordinat (x,y)

dinamakan intensitas atau tingkat keabuan dari citra pada titik tersebut. Gambar 2.1
menunjukkan posisi koordinat citra digital (Putra, 2010).

Gambar 2.1. Koordinat Citra Digital

2.1.2. Jenis – Jenis Citra Digital
Ada tiga jenis citra yang umum digunakan dalam pemrosesan citra, antara lain (Kadir
& Susanto, 2013) :

Universitas Sumatera Utara

9

1.

Citra berwarna / Red, Green, Blue (RGB). Merupakan jenis citra yang menyajikan
warna dalam bentuk komponen R (merah), G(hijau), B(biru). Setiap komponen
warna menggunakan delapan bit (nilainya berkisar antara 0 sampai dengan 225).

Gambar 2.2. Contoh gambar citra RGB


2.

Citra Berskala Keabuan (Grayscale) merupakan citra digital yang hanya memiliki
satu nilai kanal pada setiap pixelnya. Nilai tersebut digunakan untuk menunjukkan
tingkat intensitas. Warna yang dimiliki adalah warna dari hitam, keabuan, dan
putih. Tingkatan keabuan disini merupakan warna abu dengan berbagai tingkatan
dari hitam hingga mendekati putih. Citra grayscale memiliki kedalaman warna
delapan bit (256 kombinasi warna keabuan).

Universitas Sumatera Utara

10

Gambar 2.3. Contoh gambar citra Grayscale

3.

Citra Biner merupakan citra dengan setiap pixel hanya dinyatakan dengan sebuah
nilai dari dua kemungkinan (yaitu nilai 0 dan 1). Nilai 0 menyatakan hitam dan

nilai 1 menyatakan putih.

Gambar 2.4. Contoh gambar citra Biner

Universitas Sumatera Utara

11

2.2 Information Retrieval
Definisi information retrieval (IR) adalah bagaimana menemukan suatu dokumen dari
dokumen-dokumen tidak terstruktur yang memberikan informasi yang dibutuhkan dari
koleksi dokumen yang sangat besar yang tersimpan dalam komputer (Manning, 2008).
Tujuan dari sistem IR ini adalah memenuhi kebutuhan informasi pengguna
dengan mendapatkan semua dokumen yang relevan dengan kebutuhan pengguna dan
pada waktu yang sama mendapatkan sedikit mungkin dokumen yang tak relevan
(Pardede, 2013). Berdasarkan konten dokumen yang dicari, information retrieval
terbagi atas 4 bagian, yaitu text retrieval, image retrieval, video retrieval dan audio
retrieval.

2.2.1


Video Retrieval

Pada dekade saat ini penggunaan media digital berkembang dengan pesat, baik pada
ukuran maupun tipe datanya. Tidak hanya pada teks tetapi juga pada image, audio dan
video. Seiring dengan peningkatan penggunaan media digital terutama video,
dibutuhkan tehnik manajemen dan retrieval data image yang efektif. Teknik terdahulu,
video dianotasikan dengan teks dan pencarian image menggunakan pendekatan textbased. Melalui uraian teks, image dapat diorganisir oleh hirarki semantik untuk
memudahkan navigasi dan pencarian yang didasarkan pada standard query Boolean.
Dikarenakan, uraian teks untuk suatu spektrum video yang luas tidak mungkin
diperoleh secara otomatis, maka kebanyakan sistem text-based video retrieval
memerlukan anotasi secara manual. Sesungguhnya, anotasi video secara manual adalah
suatu pekerjaan yang mahal dan susah untuk database video yang besar, dan adalah
sering bersifat subyektif, context sensitive dan tidak sempurna. (Long Fuhui, ChiaHung, Hove, 2005).
Ada dua pendekatan yang dapat digunakan untuk merepresentasikan video
yakni : Metadata-based dan Content-based. Untuk itu diperlukan teknik retrieval
(query) dari dua pendekatan tersebut yang dapat dibagi menjadi 3 yakni: Context-based,
Semantic-based dan Content-based (Muslim & Karyati, 2009).

Universitas Sumatera Utara


12

2.3 Content Based Video Retrieval

Temu kembali konten video atau Content Based Video Retrieval (CBVR) merupakan
metode temu kembali berkas video berbasis konten berdasarkan fitur visual dari video
(Asha & Sreeraj, 2013).
Konten dalam konteks ini meliputi warna, tekstur, bentuk objek, atau informasi
lainnya yang dapat diperoleh untuk merepresentasikan frame citra pada video. Tanpa
adanya kemampuan mengamati konten video, sistem pencari harus mengandalkan
metadata seperti kata kunci atau deskripsi video yang menyebabkan kesalahan apabila
kata kunci dan deskripsi tidak sesuai dengan isi video. Content Based Video Retrieval
dapat membantu pengguna dalam menemukan video yang sesuai karena didasarkan
pada informasi konten. Beberapa pendekatan yang digunakan untuk mengektraksi
informasi konten pada video antara lain histogram warna, informasi bentuk objek,
tekstur, dan analisa teks (Huda et al, 2014).
Secara umum, kerangka kerja dari proses Content Based Video Retrieval
ditampilkan dalam gambar 2.5. Proses Content Based Video Retrieval terdiri dari 3
tahap, yaitu tahap praproses, ekstraksi fitur, dan pencocokan fitur. Setiap video yang

ada pada media penyimpanan terlebih dahulu melalui tahap praproses yang terdiri dari
modul segmentasi video dan ekstraksi keyframe. Hasil dari tahap praproses adalah
himpunan keyframe yang telah diekstraksi dari video. Dari himpunan keyframe yang
mewakili konten video ini, kemudian dilakukan tahap ekstraksi fitur menggunakan
descriptor Speeded-Up Robust Fetures (SURF) (Huda et al, 2014).
Pada proses penemuan kembali, pengguna memberikan klip atau gambar
sebagai query masukan. Klip query kemudian melalui tahap ekstraksi fitur
menggunakan descriptor Speeded-Up Robust Fetures (SURF) untuk mendapatkan fitur
descriptornya. Video pada database diurutkan berdasarkan kemiripan descriptor video
dengan descriptor query (Huda et al, 2014).

Universitas Sumatera Utara

13

Gambar 2.5. Proses Content Based Video Retrieval

2.3.1

Segmentasi Video


Segmentasi video adalah langkah pertama menuju pencarian video berbasis konten
yang bertujuan untuk mengelompokkan objek yang bergerak dalam urutan video (Gitte
et al, 2014). Segmentasi video merupakan proses partisi video ke dalam bagian yang
berarti yang disebut sebagai segmen. Segmentasi dapat bersifat temporal, spasial, atau
spasio-temporal. Segmentasi temporal membagi video menjadi adegan, shot, atau frame
(Huda et al, 2014). Sebuah shot didefinisikan sebagai frame yang berurutan dari awal
sampai akhir dari sebuah video (Gao & Tang, 2000).

Gambar 2.6. Segmentasi Video

Universitas Sumatera Utara

14

2.3.2

Ekstraksi Keyframe

Keyframe adalah frame yang dapat mewakili sebuah shot atau scene. Konten ini

(keyframe) harus yang paling representatif (dapat mewakili atau menggambarkan video
tersebut) (Geetha & Narayanan, 2014).
Ekstraksi keyframe merupakan proses yang dilakukan secara otomatis untuk
mendeteksi frame kunci dari suatu video. Beberapa frame yang menjadi batas antar
adegan yang berurutan diseleksi untuk dipilih sebagai keyframe. Keyframe didefinisikan
sebagai frame yang dapat mewakili karakter beberapa frame pada sebuah adegan.
Frame pada adegan yang sama cenderung memiliki karakter visual yang mirip. Dengan
adanya keyframe yang dapat mewakili konten penting dalam suatu adegan, maka jumlah
informasi yang perlu disimpan untuk sebuah video selama proses indeksing,
penyimpanan, dan penemuan kembali menjadi lebih ringkas (Huda et al, 2014).

2.3.3

Ekstraksi Fitur

Ekstraksi fitur adalah mengekstrak fitur gambar seperti warna dan tekstur dari frame
kunci untuk proses penemuan kembali video (Shanmugan & Rajendran, 2009).
SURF merupakan sebuah algoritma yang cepat dan akurat untuk proses
mendeteksi descriptor lokal dari kesamaan representasi citra invariant. Descriptor
adalah sebuah ciri-ciri dari suatu citra berdasarkan aturan tertentu dari suatu algoritma.

SURF menggunakan citra integral untuk meningkatkan kecepatan komputasi.
Algoritma ini didasarkan pada kerangka SURF dari hasil disertasi Herbert Bay
(Thepade, 2014).

2.3.4

Pencocokan Fitur

Evaluasi tingkat kemiripan dihitung menggunakan jarak. Jarak merupakan pendekatan
yang umum dipakai untuk mewujudkan pencarian citra. Fungsinya adalah untuk
mengetahui kesamaan atau ketidaksamaan dua buah citra. Dari nilai kemiripan yang
didapatkan, jarak kemudian diurutkan dan video dengan tingkat kemiripan tertinggi
ditampilkan sebagai hasil.

Universitas Sumatera Utara

15

2.4


Speeded-Up Robust Features (SURF)

Algoritma SURF (Bay H., dkk, 2006) bertujuan untuk mendeteksi fitur lokal suatu citra
dengan handal dan cepat. Algoritma ini sebagian terinspirasi oleh algoritma SIFT
(Scale-invariant feature transform), terutama pada tahap scale space representation
(Lowe DG, 1999).
SURF merupakan sebuah algoritma yang cepat dan akurat untuk proses
mendeteksi descriptor lokal pada citra. Descriptor adalah sebuah ciri-ciri dari suatu
citra berdasarkan aturan tertentu dari suatu algoritma. Algoritma SURF dikembangkan
oleh Herbert bay dkk pada tahun 2006. Secara umum, algoritma SURF terdiri dari 3
bagian utama yaitu :
1. Detector Interest Point / KeyPoint
Image yang dimasukkan akan diubah menjadi integral image dengan persamaan:

Σ(

, )=



∑ ∑

( , ) ...................................(1)

=0 =0

Setelah diperoleh integral image maka komputasi dilakukan dengan menggunakan
persamaan Fast-Hessian Detector :
(�, �) = [

Lxx X, σ
Lxy X, σ

Lxy X, σ
] ..................................(2)
Lyy X, σ

Di dalam algoritma SURF, digunakan turunan kedua Gaussian dalam pembuatan
determinan dari Hessian sehingga diperoleh Hessian Matrix yang baru, hal ini dilakukan
menggunakan persamaan :
(



) = � � − 0.9�2 ..............................(3)

2. Pembuatan SURF Descriptor.

Langkah selanjutnya adalah menghitung nilai dari semua interest/keypoint yang telah
dilakukan pada tahap pertama. Metode Haar Wavelet digunakan pada tahap ini untuk
memperoleh nilai dimenso dari vektor, menggunakan persamaan :

� = ( Σ , Σ , Σ|

|

, Σ|

|

)........................ (4)

Universitas Sumatera Utara

16

3. Setelah dipilih citra yang akan dicari, dan proses SURF detector & descriptor telah
berhasil memperoleh fitur dari seluruh citra koleksi, maka dilakukan proses image
matching / similiarity comparison. Dicari dan ditampilkan citra yang memiliki
kemiripan fitur dengan citra yang dicari dengan cara melakukan perhitungan jarak
antara dua citra.

2.5 Efektifitas Information Retrieval System

Lancaster (1980) menyatakan efektivitas dari suatu sistem temu kembali informasi
adalah kemampuan dari sistem itu untuk memangil berbagai dokumen dari suatu basis
data sesuai dengan permintaan pengguna. Ada dua parameter dasar yang digunakan
dalam mengukur kemampuan suatu sistem temu kembali informasi yaitu rasio atau
perbandingan dari perolehan (recall) dan ketepatan (precision).
Ukuran efetivitas pencarian pada dokumen yang ditampilkan oleh sistem temu
balik dapat ditentukan oleh precision dan recall. Precision adalah rasio jumlah
dokumen relevan yang ditemukan dengan total jumlah yang ditemukan oleh aplikasi.
Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total
jumlah dokumen yang relevan dalam kumpulan dokumen.





= |{�

� � = |{�



Keterangan :

}∩{
|{

}|
}|

}∩{
|{



}|
}|

Precision

: Nilai Precision atau nilai ketepatan

Recall

: Nilai Recall atau nilai rasio perbandingan dari
perolehan

Relevan Documents

: Jumlah dokumen yang relevan

Documents Retrieved : Jumlah dokumen yang sesuai dan ditemukan kembali

Universitas Sumatera Utara

17

2.6.

NO
1

Penelitian yang Terdahulu

Nama
Ulum, M. F.

Judul

Hasil Penelitian

Ekstraksi Titik –

Image yang bisa diuji coba pada

Titik Fitur Pada

algoritma SURF adalah image yang

Citra Menggunakan

berformat

Speesed-Up Robust

untuk image warna tidak bisa

Features (SURF)

dilakukan. Dan dari beberapa hasil

grayscale

sedangkan

uji coba ternyata setiap rotasi image
mempunyai titk – titik berbeda
dengan image yang lainnya
2

Huda, M.

Ekstraksi Keyframe

Penentuan

Misbachul

dengan Entropy

penting

Differences untuk

mereduksi waktu pencarian dengan

Temu Kembali

tahap mempertimbangkan kualitas

Konten Video

hasil pencarian. Metode ekstraksi

berbasis Speeded-

keyframe dengan ED untuk temu

Up Robust Feature

kembali

keyframe
dalam

konten

menjadi

CBVR

untuk

video

berbasis

SURF dapat mengembalikan hasil
pencarian dengan baik.
3

Putri, Aulia

Implementasi

Hasil temu balik citra dengan

Taridah

Content Based

menggunakan algoritma Speeded-

Image Retrieval

Up Robust Features (SURF) serta

menggunakan

perbandingan

Speeded-Up Robust

dengan

Features

diperoleh dengan cukup baik dan

kemiripan

Euclidean

citra

Distance

berhasil menampilkan citra yang
relevan.

Nilai

Threshold

yang

ditentukan serta fitur dari citra yang
dicari menentukan hasil temu balik
citra.

Universitas Sumatera Utara

18

4

Sriyasa, I.

Temu Kembali

Pembentukan kata visual dilakukan

Wayan

Objek di dalam

dengan metode kuantisasi

Video Menggunkan

SIFT, melalui penerapan clustering

Kuantisasi Fitur

k-means dengan pengukuran jarak

Scale Invariant

Euclidean. Nilai rataan precision

Feature Transform

untuk temu kembali objek lebih

(SIFT)

rendah jika Mauladi.dibandingkan

fitur

dengan rataan precision untuk temu
kembali frame.
5

Mauladi, Kemal

Pelacakan Objek

Algoritma yang diusulkan, yaitu

Farouq

Gambar Video

terdiri dari empat tahap yaitu fitur

Berdasarkan

segmentasi citra, ekstraksi serta

Segmentasi Citra

objek pelacakan dan penentuan

dan Pola

gerak vektor. Setelah segmentasi

Pencocokan

gambar fitur dari masing masing
objek

yang

diambil

dan

pola

matching algoritma dijalankan pada
frame berturut – turut. Video urutan,
sehingga pola diekstrak fitur yang
cocok di frame berikutnya, gerakan
objek dari frame ke frame referensi
ini dihitung di kedua X dan Y arah,
masker tersebut akan dipindahkan
dalam gambar yang sesuai, maka
objek bergerak dalam video urutan
akan dilacak.
6

Haryansyah

Deteksi dan

Nilai hit threshold ini mempunyai

Penghitungan

pengaruh yang besar yaitu sekitar

Manusia pada

80%

Video Pengunjung

keberhasilan proses deteksi yang

Instansi Pemerintah

ada. Dari hasil uji coba yang

di Tarakan

dilakukan nilai hit threshold yang

sampai

90%

terhadap

Universitas Sumatera Utara

19

menggunkan

digunakan untuk menghasilkan hasil

Metode Histogram

deteksi yang maksimal yaitu antara

of Oriented

1,0 sampai 2,0. Apabila nilai hit

Gradients

threshold dibawah 1,0 maka akan
menghasilkan true negative yaitu
adanya objek yang dideteksi namun
bukan manusia. Sebaliknya, apabila
nilai hit threshold diatas 2,0 maka
akan menghasil false positive yaitu
adanya beberapa objek manusia
yang seharus terdeteksi, namun
tidak terdeteksi.

Universitas Sumatera Utara