Implementasi Content Based Video retrieval Menggunakan Speede-Up Robust Features (Surf)
BAB II
LANDASAN TEORI
2.1. Video
Video adalah teknologi untuk menangkap, merekam, memproses, mentransmisikan dan
menata ulang citra bergerak. Teknologi ini biasanya menggunakan film seluloid, sinyal
elektronik, atau media digital. Video juga dapat diartikan sebagai gabungan citra – citra
mati yang dibaca berurutan dalam suatu waktu dengan kecepatan tertentu. Citra – citra
mati tersebut dinamakan frame dan kecepatan pembacaan gabungan citra disebut
dengan frame rate, dengan satuan fps (frame per second) (Hashlinda et al. 2012).
Video digital pada dasarnya tersusun atas serangkaian frame yang ditampilkan
pada layar dengan kecepatan tertentu sesuai frame rate yang diberikan (dalam
frame/second). Masing masing frame merupakan citra digital (Hashlinda et al. 2012).
Karateristik suatu video digital akan menentukan kualitas video dan akan
dijelaskan sebagai berikut (Hashlinda et al. 2012) :
1. Frame Rate, menunjukkan jumlah frame tiap detik pada suatu video yang dinyatakan
dengan frame per second. Video yang berkualitas baik akan memiliki frame rate
yang tinggi, setidaknya harus menampilkan sedikitnya 25 frame per second.
2. Resolusi, adalah ukuran sebuah frame. Resolusi dinyatakan dalam pixel – pixel.
Semakin tinggi resolusi, semakin baik kualitas video yang dihasilkan, dalam artian
bahwa ukuran fisiknya sama, video dengan resolusi tinggi akan lebih detail.
3. Kedalaman Bit, menentukan jumlah bit yang digunakan untuk merepresentasikan
tiap pixel pada sebuah frame. Kedalaman bit dinyatakan dalam bit per pixel. Semakin
banyak bit yang digunakan untuk merepresentasikan sebuah piksel, yang berarti
semakintinggi kedalaman pixelnya, maka semakin baik pula kualitasnya.
7
Universitas Sumatera Utara
8
2.1.1. Citra
Citra atau image adalah suatu matriks dimana indeks baris dan kolomnya menyatakan
suatu titik pada citra tersebut dan elemen matriksnya (yang disebut sebagai elemen
gambar / pixel) menyatakan tingkat keabuan pada titik tersebut (Sutoyo & Mulyanto,
2009).
Suatu citra dapat didefenisikan sebagai fungsi F(x,y) berukuran M baris dan N
kolom, dengan x dan y adalah koordinat spasial dan amplitudo f di titik koordinat (x,y)
dinamakan intensitas atau tingkat keabuan dari citra pada titik tersebut. Gambar 2.1
menunjukkan posisi koordinat citra digital (Putra, 2010).
Gambar 2.1. Koordinat Citra Digital
2.1.2. Jenis – Jenis Citra Digital
Ada tiga jenis citra yang umum digunakan dalam pemrosesan citra, antara lain (Kadir
& Susanto, 2013) :
Universitas Sumatera Utara
9
1.
Citra berwarna / Red, Green, Blue (RGB). Merupakan jenis citra yang menyajikan
warna dalam bentuk komponen R (merah), G(hijau), B(biru). Setiap komponen
warna menggunakan delapan bit (nilainya berkisar antara 0 sampai dengan 225).
Gambar 2.2. Contoh gambar citra RGB
2.
Citra Berskala Keabuan (Grayscale) merupakan citra digital yang hanya memiliki
satu nilai kanal pada setiap pixelnya. Nilai tersebut digunakan untuk menunjukkan
tingkat intensitas. Warna yang dimiliki adalah warna dari hitam, keabuan, dan
putih. Tingkatan keabuan disini merupakan warna abu dengan berbagai tingkatan
dari hitam hingga mendekati putih. Citra grayscale memiliki kedalaman warna
delapan bit (256 kombinasi warna keabuan).
Universitas Sumatera Utara
10
Gambar 2.3. Contoh gambar citra Grayscale
3.
Citra Biner merupakan citra dengan setiap pixel hanya dinyatakan dengan sebuah
nilai dari dua kemungkinan (yaitu nilai 0 dan 1). Nilai 0 menyatakan hitam dan
nilai 1 menyatakan putih.
Gambar 2.4. Contoh gambar citra Biner
Universitas Sumatera Utara
11
2.2 Information Retrieval
Definisi information retrieval (IR) adalah bagaimana menemukan suatu dokumen dari
dokumen-dokumen tidak terstruktur yang memberikan informasi yang dibutuhkan dari
koleksi dokumen yang sangat besar yang tersimpan dalam komputer (Manning, 2008).
Tujuan dari sistem IR ini adalah memenuhi kebutuhan informasi pengguna
dengan mendapatkan semua dokumen yang relevan dengan kebutuhan pengguna dan
pada waktu yang sama mendapatkan sedikit mungkin dokumen yang tak relevan
(Pardede, 2013). Berdasarkan konten dokumen yang dicari, information retrieval
terbagi atas 4 bagian, yaitu text retrieval, image retrieval, video retrieval dan audio
retrieval.
2.2.1
Video Retrieval
Pada dekade saat ini penggunaan media digital berkembang dengan pesat, baik pada
ukuran maupun tipe datanya. Tidak hanya pada teks tetapi juga pada image, audio dan
video. Seiring dengan peningkatan penggunaan media digital terutama video,
dibutuhkan tehnik manajemen dan retrieval data image yang efektif. Teknik terdahulu,
video dianotasikan dengan teks dan pencarian image menggunakan pendekatan textbased. Melalui uraian teks, image dapat diorganisir oleh hirarki semantik untuk
memudahkan navigasi dan pencarian yang didasarkan pada standard query Boolean.
Dikarenakan, uraian teks untuk suatu spektrum video yang luas tidak mungkin
diperoleh secara otomatis, maka kebanyakan sistem text-based video retrieval
memerlukan anotasi secara manual. Sesungguhnya, anotasi video secara manual adalah
suatu pekerjaan yang mahal dan susah untuk database video yang besar, dan adalah
sering bersifat subyektif, context sensitive dan tidak sempurna. (Long Fuhui, ChiaHung, Hove, 2005).
Ada dua pendekatan yang dapat digunakan untuk merepresentasikan video
yakni : Metadata-based dan Content-based. Untuk itu diperlukan teknik retrieval
(query) dari dua pendekatan tersebut yang dapat dibagi menjadi 3 yakni: Context-based,
Semantic-based dan Content-based (Muslim & Karyati, 2009).
Universitas Sumatera Utara
12
2.3 Content Based Video Retrieval
Temu kembali konten video atau Content Based Video Retrieval (CBVR) merupakan
metode temu kembali berkas video berbasis konten berdasarkan fitur visual dari video
(Asha & Sreeraj, 2013).
Konten dalam konteks ini meliputi warna, tekstur, bentuk objek, atau informasi
lainnya yang dapat diperoleh untuk merepresentasikan frame citra pada video. Tanpa
adanya kemampuan mengamati konten video, sistem pencari harus mengandalkan
metadata seperti kata kunci atau deskripsi video yang menyebabkan kesalahan apabila
kata kunci dan deskripsi tidak sesuai dengan isi video. Content Based Video Retrieval
dapat membantu pengguna dalam menemukan video yang sesuai karena didasarkan
pada informasi konten. Beberapa pendekatan yang digunakan untuk mengektraksi
informasi konten pada video antara lain histogram warna, informasi bentuk objek,
tekstur, dan analisa teks (Huda et al, 2014).
Secara umum, kerangka kerja dari proses Content Based Video Retrieval
ditampilkan dalam gambar 2.5. Proses Content Based Video Retrieval terdiri dari 3
tahap, yaitu tahap praproses, ekstraksi fitur, dan pencocokan fitur. Setiap video yang
ada pada media penyimpanan terlebih dahulu melalui tahap praproses yang terdiri dari
modul segmentasi video dan ekstraksi keyframe. Hasil dari tahap praproses adalah
himpunan keyframe yang telah diekstraksi dari video. Dari himpunan keyframe yang
mewakili konten video ini, kemudian dilakukan tahap ekstraksi fitur menggunakan
descriptor Speeded-Up Robust Fetures (SURF) (Huda et al, 2014).
Pada proses penemuan kembali, pengguna memberikan klip atau gambar
sebagai query masukan. Klip query kemudian melalui tahap ekstraksi fitur
menggunakan descriptor Speeded-Up Robust Fetures (SURF) untuk mendapatkan fitur
descriptornya. Video pada database diurutkan berdasarkan kemiripan descriptor video
dengan descriptor query (Huda et al, 2014).
Universitas Sumatera Utara
13
Gambar 2.5. Proses Content Based Video Retrieval
2.3.1
Segmentasi Video
Segmentasi video adalah langkah pertama menuju pencarian video berbasis konten
yang bertujuan untuk mengelompokkan objek yang bergerak dalam urutan video (Gitte
et al, 2014). Segmentasi video merupakan proses partisi video ke dalam bagian yang
berarti yang disebut sebagai segmen. Segmentasi dapat bersifat temporal, spasial, atau
spasio-temporal. Segmentasi temporal membagi video menjadi adegan, shot, atau frame
(Huda et al, 2014). Sebuah shot didefinisikan sebagai frame yang berurutan dari awal
sampai akhir dari sebuah video (Gao & Tang, 2000).
Gambar 2.6. Segmentasi Video
Universitas Sumatera Utara
14
2.3.2
Ekstraksi Keyframe
Keyframe adalah frame yang dapat mewakili sebuah shot atau scene. Konten ini
(keyframe) harus yang paling representatif (dapat mewakili atau menggambarkan video
tersebut) (Geetha & Narayanan, 2014).
Ekstraksi keyframe merupakan proses yang dilakukan secara otomatis untuk
mendeteksi frame kunci dari suatu video. Beberapa frame yang menjadi batas antar
adegan yang berurutan diseleksi untuk dipilih sebagai keyframe. Keyframe didefinisikan
sebagai frame yang dapat mewakili karakter beberapa frame pada sebuah adegan.
Frame pada adegan yang sama cenderung memiliki karakter visual yang mirip. Dengan
adanya keyframe yang dapat mewakili konten penting dalam suatu adegan, maka jumlah
informasi yang perlu disimpan untuk sebuah video selama proses indeksing,
penyimpanan, dan penemuan kembali menjadi lebih ringkas (Huda et al, 2014).
2.3.3
Ekstraksi Fitur
Ekstraksi fitur adalah mengekstrak fitur gambar seperti warna dan tekstur dari frame
kunci untuk proses penemuan kembali video (Shanmugan & Rajendran, 2009).
SURF merupakan sebuah algoritma yang cepat dan akurat untuk proses
mendeteksi descriptor lokal dari kesamaan representasi citra invariant. Descriptor
adalah sebuah ciri-ciri dari suatu citra berdasarkan aturan tertentu dari suatu algoritma.
SURF menggunakan citra integral untuk meningkatkan kecepatan komputasi.
Algoritma ini didasarkan pada kerangka SURF dari hasil disertasi Herbert Bay
(Thepade, 2014).
2.3.4
Pencocokan Fitur
Evaluasi tingkat kemiripan dihitung menggunakan jarak. Jarak merupakan pendekatan
yang umum dipakai untuk mewujudkan pencarian citra. Fungsinya adalah untuk
mengetahui kesamaan atau ketidaksamaan dua buah citra. Dari nilai kemiripan yang
didapatkan, jarak kemudian diurutkan dan video dengan tingkat kemiripan tertinggi
ditampilkan sebagai hasil.
Universitas Sumatera Utara
15
2.4
Speeded-Up Robust Features (SURF)
Algoritma SURF (Bay H., dkk, 2006) bertujuan untuk mendeteksi fitur lokal suatu citra
dengan handal dan cepat. Algoritma ini sebagian terinspirasi oleh algoritma SIFT
(Scale-invariant feature transform), terutama pada tahap scale space representation
(Lowe DG, 1999).
SURF merupakan sebuah algoritma yang cepat dan akurat untuk proses
mendeteksi descriptor lokal pada citra. Descriptor adalah sebuah ciri-ciri dari suatu
citra berdasarkan aturan tertentu dari suatu algoritma. Algoritma SURF dikembangkan
oleh Herbert bay dkk pada tahun 2006. Secara umum, algoritma SURF terdiri dari 3
bagian utama yaitu :
1. Detector Interest Point / KeyPoint
Image yang dimasukkan akan diubah menjadi integral image dengan persamaan:
≤
Σ(
, )=
≤
∑ ∑
( , ) ...................................(1)
=0 =0
Setelah diperoleh integral image maka komputasi dilakukan dengan menggunakan
persamaan Fast-Hessian Detector :
(�, �) = [
Lxx X, σ
Lxy X, σ
Lxy X, σ
] ..................................(2)
Lyy X, σ
Di dalam algoritma SURF, digunakan turunan kedua Gaussian dalam pembuatan
determinan dari Hessian sehingga diperoleh Hessian Matrix yang baru, hal ini dilakukan
menggunakan persamaan :
(
�
) = � � − 0.9�2 ..............................(3)
2. Pembuatan SURF Descriptor.
Langkah selanjutnya adalah menghitung nilai dari semua interest/keypoint yang telah
dilakukan pada tahap pertama. Metode Haar Wavelet digunakan pada tahap ini untuk
memperoleh nilai dimenso dari vektor, menggunakan persamaan :
� = ( Σ , Σ , Σ|
|
, Σ|
|
)........................ (4)
Universitas Sumatera Utara
16
3. Setelah dipilih citra yang akan dicari, dan proses SURF detector & descriptor telah
berhasil memperoleh fitur dari seluruh citra koleksi, maka dilakukan proses image
matching / similiarity comparison. Dicari dan ditampilkan citra yang memiliki
kemiripan fitur dengan citra yang dicari dengan cara melakukan perhitungan jarak
antara dua citra.
2.5 Efektifitas Information Retrieval System
Lancaster (1980) menyatakan efektivitas dari suatu sistem temu kembali informasi
adalah kemampuan dari sistem itu untuk memangil berbagai dokumen dari suatu basis
data sesuai dengan permintaan pengguna. Ada dua parameter dasar yang digunakan
dalam mengukur kemampuan suatu sistem temu kembali informasi yaitu rasio atau
perbandingan dari perolehan (recall) dan ketepatan (precision).
Ukuran efetivitas pencarian pada dokumen yang ditampilkan oleh sistem temu
balik dapat ditentukan oleh precision dan recall. Precision adalah rasio jumlah
dokumen relevan yang ditemukan dengan total jumlah yang ditemukan oleh aplikasi.
Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total
jumlah dokumen yang relevan dalam kumpulan dokumen.
�
�
= |{�
� � = |{�
�
Keterangan :
}∩{
|{
}|
}|
}∩{
|{
�
}|
}|
Precision
: Nilai Precision atau nilai ketepatan
Recall
: Nilai Recall atau nilai rasio perbandingan dari
perolehan
Relevan Documents
: Jumlah dokumen yang relevan
Documents Retrieved : Jumlah dokumen yang sesuai dan ditemukan kembali
Universitas Sumatera Utara
17
2.6.
NO
1
Penelitian yang Terdahulu
Nama
Ulum, M. F.
Judul
Hasil Penelitian
Ekstraksi Titik –
Image yang bisa diuji coba pada
Titik Fitur Pada
algoritma SURF adalah image yang
Citra Menggunakan
berformat
Speesed-Up Robust
untuk image warna tidak bisa
Features (SURF)
dilakukan. Dan dari beberapa hasil
grayscale
sedangkan
uji coba ternyata setiap rotasi image
mempunyai titk – titik berbeda
dengan image yang lainnya
2
Huda, M.
Ekstraksi Keyframe
Penentuan
Misbachul
dengan Entropy
penting
Differences untuk
mereduksi waktu pencarian dengan
Temu Kembali
tahap mempertimbangkan kualitas
Konten Video
hasil pencarian. Metode ekstraksi
berbasis Speeded-
keyframe dengan ED untuk temu
Up Robust Feature
kembali
keyframe
dalam
konten
menjadi
CBVR
untuk
video
berbasis
SURF dapat mengembalikan hasil
pencarian dengan baik.
3
Putri, Aulia
Implementasi
Hasil temu balik citra dengan
Taridah
Content Based
menggunakan algoritma Speeded-
Image Retrieval
Up Robust Features (SURF) serta
menggunakan
perbandingan
Speeded-Up Robust
dengan
Features
diperoleh dengan cukup baik dan
kemiripan
Euclidean
citra
Distance
berhasil menampilkan citra yang
relevan.
Nilai
Threshold
yang
ditentukan serta fitur dari citra yang
dicari menentukan hasil temu balik
citra.
Universitas Sumatera Utara
18
4
Sriyasa, I.
Temu Kembali
Pembentukan kata visual dilakukan
Wayan
Objek di dalam
dengan metode kuantisasi
Video Menggunkan
SIFT, melalui penerapan clustering
Kuantisasi Fitur
k-means dengan pengukuran jarak
Scale Invariant
Euclidean. Nilai rataan precision
Feature Transform
untuk temu kembali objek lebih
(SIFT)
rendah jika Mauladi.dibandingkan
fitur
dengan rataan precision untuk temu
kembali frame.
5
Mauladi, Kemal
Pelacakan Objek
Algoritma yang diusulkan, yaitu
Farouq
Gambar Video
terdiri dari empat tahap yaitu fitur
Berdasarkan
segmentasi citra, ekstraksi serta
Segmentasi Citra
objek pelacakan dan penentuan
dan Pola
gerak vektor. Setelah segmentasi
Pencocokan
gambar fitur dari masing masing
objek
yang
diambil
dan
pola
matching algoritma dijalankan pada
frame berturut – turut. Video urutan,
sehingga pola diekstrak fitur yang
cocok di frame berikutnya, gerakan
objek dari frame ke frame referensi
ini dihitung di kedua X dan Y arah,
masker tersebut akan dipindahkan
dalam gambar yang sesuai, maka
objek bergerak dalam video urutan
akan dilacak.
6
Haryansyah
Deteksi dan
Nilai hit threshold ini mempunyai
Penghitungan
pengaruh yang besar yaitu sekitar
Manusia pada
80%
Video Pengunjung
keberhasilan proses deteksi yang
Instansi Pemerintah
ada. Dari hasil uji coba yang
di Tarakan
dilakukan nilai hit threshold yang
sampai
90%
terhadap
Universitas Sumatera Utara
19
menggunkan
digunakan untuk menghasilkan hasil
Metode Histogram
deteksi yang maksimal yaitu antara
of Oriented
1,0 sampai 2,0. Apabila nilai hit
Gradients
threshold dibawah 1,0 maka akan
menghasilkan true negative yaitu
adanya objek yang dideteksi namun
bukan manusia. Sebaliknya, apabila
nilai hit threshold diatas 2,0 maka
akan menghasil false positive yaitu
adanya beberapa objek manusia
yang seharus terdeteksi, namun
tidak terdeteksi.
Universitas Sumatera Utara
LANDASAN TEORI
2.1. Video
Video adalah teknologi untuk menangkap, merekam, memproses, mentransmisikan dan
menata ulang citra bergerak. Teknologi ini biasanya menggunakan film seluloid, sinyal
elektronik, atau media digital. Video juga dapat diartikan sebagai gabungan citra – citra
mati yang dibaca berurutan dalam suatu waktu dengan kecepatan tertentu. Citra – citra
mati tersebut dinamakan frame dan kecepatan pembacaan gabungan citra disebut
dengan frame rate, dengan satuan fps (frame per second) (Hashlinda et al. 2012).
Video digital pada dasarnya tersusun atas serangkaian frame yang ditampilkan
pada layar dengan kecepatan tertentu sesuai frame rate yang diberikan (dalam
frame/second). Masing masing frame merupakan citra digital (Hashlinda et al. 2012).
Karateristik suatu video digital akan menentukan kualitas video dan akan
dijelaskan sebagai berikut (Hashlinda et al. 2012) :
1. Frame Rate, menunjukkan jumlah frame tiap detik pada suatu video yang dinyatakan
dengan frame per second. Video yang berkualitas baik akan memiliki frame rate
yang tinggi, setidaknya harus menampilkan sedikitnya 25 frame per second.
2. Resolusi, adalah ukuran sebuah frame. Resolusi dinyatakan dalam pixel – pixel.
Semakin tinggi resolusi, semakin baik kualitas video yang dihasilkan, dalam artian
bahwa ukuran fisiknya sama, video dengan resolusi tinggi akan lebih detail.
3. Kedalaman Bit, menentukan jumlah bit yang digunakan untuk merepresentasikan
tiap pixel pada sebuah frame. Kedalaman bit dinyatakan dalam bit per pixel. Semakin
banyak bit yang digunakan untuk merepresentasikan sebuah piksel, yang berarti
semakintinggi kedalaman pixelnya, maka semakin baik pula kualitasnya.
7
Universitas Sumatera Utara
8
2.1.1. Citra
Citra atau image adalah suatu matriks dimana indeks baris dan kolomnya menyatakan
suatu titik pada citra tersebut dan elemen matriksnya (yang disebut sebagai elemen
gambar / pixel) menyatakan tingkat keabuan pada titik tersebut (Sutoyo & Mulyanto,
2009).
Suatu citra dapat didefenisikan sebagai fungsi F(x,y) berukuran M baris dan N
kolom, dengan x dan y adalah koordinat spasial dan amplitudo f di titik koordinat (x,y)
dinamakan intensitas atau tingkat keabuan dari citra pada titik tersebut. Gambar 2.1
menunjukkan posisi koordinat citra digital (Putra, 2010).
Gambar 2.1. Koordinat Citra Digital
2.1.2. Jenis – Jenis Citra Digital
Ada tiga jenis citra yang umum digunakan dalam pemrosesan citra, antara lain (Kadir
& Susanto, 2013) :
Universitas Sumatera Utara
9
1.
Citra berwarna / Red, Green, Blue (RGB). Merupakan jenis citra yang menyajikan
warna dalam bentuk komponen R (merah), G(hijau), B(biru). Setiap komponen
warna menggunakan delapan bit (nilainya berkisar antara 0 sampai dengan 225).
Gambar 2.2. Contoh gambar citra RGB
2.
Citra Berskala Keabuan (Grayscale) merupakan citra digital yang hanya memiliki
satu nilai kanal pada setiap pixelnya. Nilai tersebut digunakan untuk menunjukkan
tingkat intensitas. Warna yang dimiliki adalah warna dari hitam, keabuan, dan
putih. Tingkatan keabuan disini merupakan warna abu dengan berbagai tingkatan
dari hitam hingga mendekati putih. Citra grayscale memiliki kedalaman warna
delapan bit (256 kombinasi warna keabuan).
Universitas Sumatera Utara
10
Gambar 2.3. Contoh gambar citra Grayscale
3.
Citra Biner merupakan citra dengan setiap pixel hanya dinyatakan dengan sebuah
nilai dari dua kemungkinan (yaitu nilai 0 dan 1). Nilai 0 menyatakan hitam dan
nilai 1 menyatakan putih.
Gambar 2.4. Contoh gambar citra Biner
Universitas Sumatera Utara
11
2.2 Information Retrieval
Definisi information retrieval (IR) adalah bagaimana menemukan suatu dokumen dari
dokumen-dokumen tidak terstruktur yang memberikan informasi yang dibutuhkan dari
koleksi dokumen yang sangat besar yang tersimpan dalam komputer (Manning, 2008).
Tujuan dari sistem IR ini adalah memenuhi kebutuhan informasi pengguna
dengan mendapatkan semua dokumen yang relevan dengan kebutuhan pengguna dan
pada waktu yang sama mendapatkan sedikit mungkin dokumen yang tak relevan
(Pardede, 2013). Berdasarkan konten dokumen yang dicari, information retrieval
terbagi atas 4 bagian, yaitu text retrieval, image retrieval, video retrieval dan audio
retrieval.
2.2.1
Video Retrieval
Pada dekade saat ini penggunaan media digital berkembang dengan pesat, baik pada
ukuran maupun tipe datanya. Tidak hanya pada teks tetapi juga pada image, audio dan
video. Seiring dengan peningkatan penggunaan media digital terutama video,
dibutuhkan tehnik manajemen dan retrieval data image yang efektif. Teknik terdahulu,
video dianotasikan dengan teks dan pencarian image menggunakan pendekatan textbased. Melalui uraian teks, image dapat diorganisir oleh hirarki semantik untuk
memudahkan navigasi dan pencarian yang didasarkan pada standard query Boolean.
Dikarenakan, uraian teks untuk suatu spektrum video yang luas tidak mungkin
diperoleh secara otomatis, maka kebanyakan sistem text-based video retrieval
memerlukan anotasi secara manual. Sesungguhnya, anotasi video secara manual adalah
suatu pekerjaan yang mahal dan susah untuk database video yang besar, dan adalah
sering bersifat subyektif, context sensitive dan tidak sempurna. (Long Fuhui, ChiaHung, Hove, 2005).
Ada dua pendekatan yang dapat digunakan untuk merepresentasikan video
yakni : Metadata-based dan Content-based. Untuk itu diperlukan teknik retrieval
(query) dari dua pendekatan tersebut yang dapat dibagi menjadi 3 yakni: Context-based,
Semantic-based dan Content-based (Muslim & Karyati, 2009).
Universitas Sumatera Utara
12
2.3 Content Based Video Retrieval
Temu kembali konten video atau Content Based Video Retrieval (CBVR) merupakan
metode temu kembali berkas video berbasis konten berdasarkan fitur visual dari video
(Asha & Sreeraj, 2013).
Konten dalam konteks ini meliputi warna, tekstur, bentuk objek, atau informasi
lainnya yang dapat diperoleh untuk merepresentasikan frame citra pada video. Tanpa
adanya kemampuan mengamati konten video, sistem pencari harus mengandalkan
metadata seperti kata kunci atau deskripsi video yang menyebabkan kesalahan apabila
kata kunci dan deskripsi tidak sesuai dengan isi video. Content Based Video Retrieval
dapat membantu pengguna dalam menemukan video yang sesuai karena didasarkan
pada informasi konten. Beberapa pendekatan yang digunakan untuk mengektraksi
informasi konten pada video antara lain histogram warna, informasi bentuk objek,
tekstur, dan analisa teks (Huda et al, 2014).
Secara umum, kerangka kerja dari proses Content Based Video Retrieval
ditampilkan dalam gambar 2.5. Proses Content Based Video Retrieval terdiri dari 3
tahap, yaitu tahap praproses, ekstraksi fitur, dan pencocokan fitur. Setiap video yang
ada pada media penyimpanan terlebih dahulu melalui tahap praproses yang terdiri dari
modul segmentasi video dan ekstraksi keyframe. Hasil dari tahap praproses adalah
himpunan keyframe yang telah diekstraksi dari video. Dari himpunan keyframe yang
mewakili konten video ini, kemudian dilakukan tahap ekstraksi fitur menggunakan
descriptor Speeded-Up Robust Fetures (SURF) (Huda et al, 2014).
Pada proses penemuan kembali, pengguna memberikan klip atau gambar
sebagai query masukan. Klip query kemudian melalui tahap ekstraksi fitur
menggunakan descriptor Speeded-Up Robust Fetures (SURF) untuk mendapatkan fitur
descriptornya. Video pada database diurutkan berdasarkan kemiripan descriptor video
dengan descriptor query (Huda et al, 2014).
Universitas Sumatera Utara
13
Gambar 2.5. Proses Content Based Video Retrieval
2.3.1
Segmentasi Video
Segmentasi video adalah langkah pertama menuju pencarian video berbasis konten
yang bertujuan untuk mengelompokkan objek yang bergerak dalam urutan video (Gitte
et al, 2014). Segmentasi video merupakan proses partisi video ke dalam bagian yang
berarti yang disebut sebagai segmen. Segmentasi dapat bersifat temporal, spasial, atau
spasio-temporal. Segmentasi temporal membagi video menjadi adegan, shot, atau frame
(Huda et al, 2014). Sebuah shot didefinisikan sebagai frame yang berurutan dari awal
sampai akhir dari sebuah video (Gao & Tang, 2000).
Gambar 2.6. Segmentasi Video
Universitas Sumatera Utara
14
2.3.2
Ekstraksi Keyframe
Keyframe adalah frame yang dapat mewakili sebuah shot atau scene. Konten ini
(keyframe) harus yang paling representatif (dapat mewakili atau menggambarkan video
tersebut) (Geetha & Narayanan, 2014).
Ekstraksi keyframe merupakan proses yang dilakukan secara otomatis untuk
mendeteksi frame kunci dari suatu video. Beberapa frame yang menjadi batas antar
adegan yang berurutan diseleksi untuk dipilih sebagai keyframe. Keyframe didefinisikan
sebagai frame yang dapat mewakili karakter beberapa frame pada sebuah adegan.
Frame pada adegan yang sama cenderung memiliki karakter visual yang mirip. Dengan
adanya keyframe yang dapat mewakili konten penting dalam suatu adegan, maka jumlah
informasi yang perlu disimpan untuk sebuah video selama proses indeksing,
penyimpanan, dan penemuan kembali menjadi lebih ringkas (Huda et al, 2014).
2.3.3
Ekstraksi Fitur
Ekstraksi fitur adalah mengekstrak fitur gambar seperti warna dan tekstur dari frame
kunci untuk proses penemuan kembali video (Shanmugan & Rajendran, 2009).
SURF merupakan sebuah algoritma yang cepat dan akurat untuk proses
mendeteksi descriptor lokal dari kesamaan representasi citra invariant. Descriptor
adalah sebuah ciri-ciri dari suatu citra berdasarkan aturan tertentu dari suatu algoritma.
SURF menggunakan citra integral untuk meningkatkan kecepatan komputasi.
Algoritma ini didasarkan pada kerangka SURF dari hasil disertasi Herbert Bay
(Thepade, 2014).
2.3.4
Pencocokan Fitur
Evaluasi tingkat kemiripan dihitung menggunakan jarak. Jarak merupakan pendekatan
yang umum dipakai untuk mewujudkan pencarian citra. Fungsinya adalah untuk
mengetahui kesamaan atau ketidaksamaan dua buah citra. Dari nilai kemiripan yang
didapatkan, jarak kemudian diurutkan dan video dengan tingkat kemiripan tertinggi
ditampilkan sebagai hasil.
Universitas Sumatera Utara
15
2.4
Speeded-Up Robust Features (SURF)
Algoritma SURF (Bay H., dkk, 2006) bertujuan untuk mendeteksi fitur lokal suatu citra
dengan handal dan cepat. Algoritma ini sebagian terinspirasi oleh algoritma SIFT
(Scale-invariant feature transform), terutama pada tahap scale space representation
(Lowe DG, 1999).
SURF merupakan sebuah algoritma yang cepat dan akurat untuk proses
mendeteksi descriptor lokal pada citra. Descriptor adalah sebuah ciri-ciri dari suatu
citra berdasarkan aturan tertentu dari suatu algoritma. Algoritma SURF dikembangkan
oleh Herbert bay dkk pada tahun 2006. Secara umum, algoritma SURF terdiri dari 3
bagian utama yaitu :
1. Detector Interest Point / KeyPoint
Image yang dimasukkan akan diubah menjadi integral image dengan persamaan:
≤
Σ(
, )=
≤
∑ ∑
( , ) ...................................(1)
=0 =0
Setelah diperoleh integral image maka komputasi dilakukan dengan menggunakan
persamaan Fast-Hessian Detector :
(�, �) = [
Lxx X, σ
Lxy X, σ
Lxy X, σ
] ..................................(2)
Lyy X, σ
Di dalam algoritma SURF, digunakan turunan kedua Gaussian dalam pembuatan
determinan dari Hessian sehingga diperoleh Hessian Matrix yang baru, hal ini dilakukan
menggunakan persamaan :
(
�
) = � � − 0.9�2 ..............................(3)
2. Pembuatan SURF Descriptor.
Langkah selanjutnya adalah menghitung nilai dari semua interest/keypoint yang telah
dilakukan pada tahap pertama. Metode Haar Wavelet digunakan pada tahap ini untuk
memperoleh nilai dimenso dari vektor, menggunakan persamaan :
� = ( Σ , Σ , Σ|
|
, Σ|
|
)........................ (4)
Universitas Sumatera Utara
16
3. Setelah dipilih citra yang akan dicari, dan proses SURF detector & descriptor telah
berhasil memperoleh fitur dari seluruh citra koleksi, maka dilakukan proses image
matching / similiarity comparison. Dicari dan ditampilkan citra yang memiliki
kemiripan fitur dengan citra yang dicari dengan cara melakukan perhitungan jarak
antara dua citra.
2.5 Efektifitas Information Retrieval System
Lancaster (1980) menyatakan efektivitas dari suatu sistem temu kembali informasi
adalah kemampuan dari sistem itu untuk memangil berbagai dokumen dari suatu basis
data sesuai dengan permintaan pengguna. Ada dua parameter dasar yang digunakan
dalam mengukur kemampuan suatu sistem temu kembali informasi yaitu rasio atau
perbandingan dari perolehan (recall) dan ketepatan (precision).
Ukuran efetivitas pencarian pada dokumen yang ditampilkan oleh sistem temu
balik dapat ditentukan oleh precision dan recall. Precision adalah rasio jumlah
dokumen relevan yang ditemukan dengan total jumlah yang ditemukan oleh aplikasi.
Precision mengindikasikan kualitas himpunan jawaban, tetapi tidak memandang total
jumlah dokumen yang relevan dalam kumpulan dokumen.
�
�
= |{�
� � = |{�
�
Keterangan :
}∩{
|{
}|
}|
}∩{
|{
�
}|
}|
Precision
: Nilai Precision atau nilai ketepatan
Recall
: Nilai Recall atau nilai rasio perbandingan dari
perolehan
Relevan Documents
: Jumlah dokumen yang relevan
Documents Retrieved : Jumlah dokumen yang sesuai dan ditemukan kembali
Universitas Sumatera Utara
17
2.6.
NO
1
Penelitian yang Terdahulu
Nama
Ulum, M. F.
Judul
Hasil Penelitian
Ekstraksi Titik –
Image yang bisa diuji coba pada
Titik Fitur Pada
algoritma SURF adalah image yang
Citra Menggunakan
berformat
Speesed-Up Robust
untuk image warna tidak bisa
Features (SURF)
dilakukan. Dan dari beberapa hasil
grayscale
sedangkan
uji coba ternyata setiap rotasi image
mempunyai titk – titik berbeda
dengan image yang lainnya
2
Huda, M.
Ekstraksi Keyframe
Penentuan
Misbachul
dengan Entropy
penting
Differences untuk
mereduksi waktu pencarian dengan
Temu Kembali
tahap mempertimbangkan kualitas
Konten Video
hasil pencarian. Metode ekstraksi
berbasis Speeded-
keyframe dengan ED untuk temu
Up Robust Feature
kembali
keyframe
dalam
konten
menjadi
CBVR
untuk
video
berbasis
SURF dapat mengembalikan hasil
pencarian dengan baik.
3
Putri, Aulia
Implementasi
Hasil temu balik citra dengan
Taridah
Content Based
menggunakan algoritma Speeded-
Image Retrieval
Up Robust Features (SURF) serta
menggunakan
perbandingan
Speeded-Up Robust
dengan
Features
diperoleh dengan cukup baik dan
kemiripan
Euclidean
citra
Distance
berhasil menampilkan citra yang
relevan.
Nilai
Threshold
yang
ditentukan serta fitur dari citra yang
dicari menentukan hasil temu balik
citra.
Universitas Sumatera Utara
18
4
Sriyasa, I.
Temu Kembali
Pembentukan kata visual dilakukan
Wayan
Objek di dalam
dengan metode kuantisasi
Video Menggunkan
SIFT, melalui penerapan clustering
Kuantisasi Fitur
k-means dengan pengukuran jarak
Scale Invariant
Euclidean. Nilai rataan precision
Feature Transform
untuk temu kembali objek lebih
(SIFT)
rendah jika Mauladi.dibandingkan
fitur
dengan rataan precision untuk temu
kembali frame.
5
Mauladi, Kemal
Pelacakan Objek
Algoritma yang diusulkan, yaitu
Farouq
Gambar Video
terdiri dari empat tahap yaitu fitur
Berdasarkan
segmentasi citra, ekstraksi serta
Segmentasi Citra
objek pelacakan dan penentuan
dan Pola
gerak vektor. Setelah segmentasi
Pencocokan
gambar fitur dari masing masing
objek
yang
diambil
dan
pola
matching algoritma dijalankan pada
frame berturut – turut. Video urutan,
sehingga pola diekstrak fitur yang
cocok di frame berikutnya, gerakan
objek dari frame ke frame referensi
ini dihitung di kedua X dan Y arah,
masker tersebut akan dipindahkan
dalam gambar yang sesuai, maka
objek bergerak dalam video urutan
akan dilacak.
6
Haryansyah
Deteksi dan
Nilai hit threshold ini mempunyai
Penghitungan
pengaruh yang besar yaitu sekitar
Manusia pada
80%
Video Pengunjung
keberhasilan proses deteksi yang
Instansi Pemerintah
ada. Dari hasil uji coba yang
di Tarakan
dilakukan nilai hit threshold yang
sampai
90%
terhadap
Universitas Sumatera Utara
19
menggunkan
digunakan untuk menghasilkan hasil
Metode Histogram
deteksi yang maksimal yaitu antara
of Oriented
1,0 sampai 2,0. Apabila nilai hit
Gradients
threshold dibawah 1,0 maka akan
menghasilkan true negative yaitu
adanya objek yang dideteksi namun
bukan manusia. Sebaliknya, apabila
nilai hit threshold diatas 2,0 maka
akan menghasil false positive yaitu
adanya beberapa objek manusia
yang seharus terdeteksi, namun
tidak terdeteksi.
Universitas Sumatera Utara