Aplikasi Search Engine dan Masalahnya
PROF. RICHARDUS EKO INDRAJIT
Aplikasi Search Engine dan Masalahnya
oleh Prof. Richardus Eko Indrajit - indrajit@post.harvard.edu
EKOJI999 Nomor
272, 7 Juni 2013
SERI 999 E-ARTIKEL SISTEM DAN TEKNOLOGI INFORMASI
Artikel ini merupakan satu dari 999 bunga rampai pemikiran Prof. Richardus Eko Indrajit di bidang sistem dan
teknologi informasi. Untuk berlangganan, silahkan kirimkan permohonan anda melalui alamat email indrajit@rad.net.id.
HALAMAN 1 DARI 4
(C) COPYRIGHT BY RICHARDUS EKO INDRAJIT, 2013
SERI 999 E-ARTIKEL SISTEM DAN TEKNOLOGI INFORMASI
PROF. RICHARDUS EKO INDRAJIT
Beberapa tahun yang lalu ketika sebuah konferensi internasional berjudul “Bridging the Gap
between Information Technology and Business” diselenggarakan oleh Harvard Business
School di San Fransisco, Yahoo! memperkenalkan konsep searching engine‐nya kepada para
peserta. Tujuannya cukup sederhana, yaitu mencari investor yang mau menanamkan uangnya
di perusahaan tersebut karena kebanyakan peserta konferensi adalah para investor kelas
kakap. Yang terjadi adalah bahwa setelah konferensi yang dilaksanakan selama 3 (tiga) hari
usai, tidak seorang investor‐pun mengerti mengenai konsep bisnis yang ditawarkan oleh
Yahoo!, walaupun secara intensif telah diterangkan pada setiap kesempatan yang ada. Lain
dahulu lain sekarang. Saat ini terlihat bagaimana orang‐orang di seluruh dunia berlomba‐
lomba memburu saham perusahaan yang mengklaim dirinya telah memiliki lebih dari 50 juta
pelanggan ini.
Internet merupakan suatu tempat dimana berjuta‐juta situs dapat diakses oleh berjuta‐juta
orang setiap harinya, tanpa mengenal batasan ruang dan waktu. Situs yang dikembangkan
oleh berbagai orang dan perusahaan sangat beragam sifatnya, mulai dari yang hanya berisi
data dan informasi ringkas mengenai pro�il sebuah organisasi sampai dengan yang dapat
dipergunakan sebagai sarana untuk melaksanakan transaksi electronic commerce.
Permasalahan yang timbul adalah bahwa perkembangan internet yang sangat cepat
(beberapa pakar mengatakan bahwa pertumbuhan jumlah situs di internet bergerak secara
eksponensial) telah mengakibatkan terjadinya banjir data dan informasi (information
overloaded) sehingga sangat menyulitkan pengguna (user) dalam mencari data dan informasi
yang diinginkan. Analogikan dengan sebuah jaringan televisi kabel yang memiliki satu juta
channel yang berbeda. Bagaimana seseorang dapat mengetahui apakah ada channel yang
menayangkan �ilm favoritnya lengkap dengan jadwal dan lokasinya? Atau bayangkan sebuah
perpustakaan negara yang memiliki koleksi satu milyar buku. Bagaimana seseorang dapat
tahu buku‐buku mana saja yang membahas subjek‐subjek tertentu yang diinginkan?
Fenomena inilah yang kemudian berkembang menjadi ide untuk membuat suatu program
yang dapat membantu para user internet dalam usahanya untuk mencari data maupun
informasi spesi�ik dalam waktu yang relatif sangat singkat (dalam hitungan detik). Mulailah
perusahaan‐perusahaan semacam Altavista.com, Excite.com, Yahoo.com, AskJeeves.com, dan
lain sebagainya berlomba‐lomba untuk membuat mesin pencari (searching engine) yang
terbaik. Secara prinsip, tujuan dari sebuah program searching engine adalah menemukan
dokumen atau arsip elektronis di internet yang sesuai dengan kebutuhan atau
permintaan pengguna dalam waktu yang sesingkat‐singkatnya. Kedua hal inilah, yaitu
kualitas hasil temuan dan waktu pencarian, yang kemudian menjadi pengukur baik tidaknya
kinerja sebuah searching engine. Gambar di bawah ini memperlihatkan 5 (lima) komponen
utama dari arsitektur sebuah program searching engine (Indrajit, 2000).
Komponen penting pertama dalah Query Interface, yang merupakan bentuk tampilan atau
format situs yang menyediakan fasilitas searching engine. Bentuk yang paling sederhana
adalah tersedianya sebuah kotak kosong di situs dimana user dapat menuliskan data atau
informasi yang ingin dicari (lihat situs Yahoo.com atau Altavista.com). Yang harus diketahui
oleh user adalah bahwa tidak semua situs memiliki kemampuan yang sama dalam membantu
user untuk mengekspresikan jenis data atau informasi yang ingin dicari. Dalam bahasa
komputer cara mengekspresikan ini disebut sebagai query. Contohnya adalah seseorang yang
ingin mencari data atau informasi mengenai hal‐hal yang berkaitan dengan �lora dan fauna di
Indonesia dapat menggunakan query semacam: “�lora” and “fauna” and “Indonesia”.
Walaupun secara internasional telah diusulkan dan ditentukan standar baku dalam
menuliskan sebuah query, namun terlihat bahwa masing‐masing situs menawarkan beragam
cara yang berbeda. Hal ini cukup beralasan mengingat bahwa pemakai internet sangat
beragam, dan berkisar dari anak‐anak sampai dengan para manula yang memiliki
HALAMAN 2 DARI 4
(C) COPYRIGHT BY RICHARDUS EKO INDRAJIT, 2013
SERI 999 E-ARTIKEL SISTEM DAN TEKNOLOGI INFORMASI
PROF. RICHARDUS EKO INDRAJIT
karakteristiknya sendiri‐sendiri. Yang utama bagi user adalah bahwa Query Interface yang
ditawarkan mudah dipergunakan dan efektif.
Komponen kedua adalah Query Engine, merupakan sebuah program yang bertugas untuk
menterjemahkan keinginan user ke dalam bahasa yang dimengerti oleh mesin komputer.
Secara teknis, perusahaan‐perusahaan penyedia searching engine berlomba‐lomba membuat
query engine yang baik sehingga selain tepat dalam mengekspresikan keinginan user, dapat
mula melakukan tugas pencarian secara cepat. Query Engine ini pulalah yang segera
melakukan pencarian arsip dan dokumen yang tepat di dalam sistem basis data (database)
yang bersangkutan.
Komponen selanjutnya adalah Database, yang pada dasarnya merupakan kumpulan atau
daftar dari dokumen maupun arsip dari seluruh situs yang ada di internet. Semakin besar
skala internet, akan semakin besar pula kapasitas penyimpan yang dibutuhkan.
Komponen keempat yang merupakan komponen terpenting dalam sebuah searching engine
adalah Spider. Secara berkala dan kontinyu, spider akan mendata setiap situs yang ada di
internet, baik yang baru maupun yang lama. Terhadap masing‐masing situs, selain alamatnya,
akan diambil kata‐kata kunci dari arsip maupun dokumen yang ditemukan. Katakanlah dari
situs Kompas.com akan diambil setiap kata pada kalimat judul berita, atau pada Amazon.com
akan diambil setiap kata pada judul buku. Di sinilah sebenarnya persaingan antara situs
terjadi, yaitu strategi dan teknik apa yang dipergunakan dalam melakukan sampling terhadap
kata‐kata yang akan menjadi kunci dalam pencarian arsip dan dokumen. Harap diingat bahwa
tidak semua situs melakukan proses updating dan sampling ini secara kontinyu (24 jam
sehari), yang dapat menyebabkan telah hilangnya beberapa arsip dan dokumen dari internet
saat user mencarinya.
Komponen kelima disebut sebagai Indexer, yang merupakan sebuah program untuk
mempercepat proses pencarian. Filoso�i yang dipergunakan mirip dengan prinsip
penggunaan indeks pada kamus atau buku‐buku. Perang antar situs pun terjadi di sini, karena
teknik melakukan indeks akan sangat berpengaruh terhadap kecepatan pencarian data atau
informasi. Biasanya yang terjadi di sini adalah adu algoritma (alur logika sebuah program)
antar para programmer yang direkrut oleh masing‐masing perusahaan.
Melihat anatomi searching engine di atas, terlihat bahwa membuat searching engine
sangatlah mudah. Yang sulit adalah mengalahkan kecepatan dan keakuratan dari searching
engine yang sudah ada sekarang. Hal inilah yang menyebabkan banyaknya pemain baru di
bisnis searching engine yang mencari market niche berupa pemilihan daerah‐daerah yang
menjadi fokus pencarian. Contohnya adalah Euroferret.com yang hanya mengkhususkan diri
pada pencarian arsip dan dokumen di situs‐situs yang ada di wilayah Eropa, atau Catcha.co.id
yang menawarkan pencarian arsip dan dokumen yang berada di wilayah geogra�is Asia
Tenggara. Biaya investasinya pun tidak dapat dibilang murah. Tengoklah Altavista yang pada
tahun 1997 harus melibatkan 3 prosesor (komputer) untuk penanganan Query Interface, 190
prosesor untuk Query Engine, 1 prosesor untuk Spider, 2 prosesor untuk Indexer, dan 300
Gigabytes kapasitas Database.
Pertanyaan selanjutnya yang kerap ditanyakan adalah seberapa besar peluang dan daya tarik
bisnis untuk membuat perusahaan penyedia searching engine. Mirip dengan bisnis surat
kabar atau majalah baru yang harus meningkatkan oplahnya terlebih dahulu sebelum dapat
memasang harga mahal untuk setiap iklan yang dipasang, dalam bisnis portal semacam
searching engine ini adalah traf�ic. Begitu jumlah orang yang mengakses situs searching
engine mencapai jutaan users, pada saat itulah waktu yang tepat untuk menawarkan
HALAMAN 3 DARI 4
(C) COPYRIGHT BY RICHARDUS EKO INDRAJIT, 2013
SERI 999 E-ARTIKEL SISTEM DAN TEKNOLOGI INFORMASI
PROF. RICHARDUS EKO INDRAJIT
pemasangan iklan (advertisement) di dalam dengan harga premium. Bahkan di Amerika,
bisnis yang diminati oleh para orang muda di Silicon Valley ini memiliki target bahwa setelah
2 tahun, dimana target traf�ic telah tercapai, maka hanya ada dua skenario yang akan dipilih
pemilik perusahaan: menjual perusahaan ke orang lain, atau go public. Mengapa demikian?
Karena mekanisme dan alam bisnis di sana sudah sedemikan rupa sehingga dalam waktu
singkat seseorang yang berbisnis internet akan dapat menjadi kaya dalam waktu singkat.
Tengoklah bagaimana perusahaan Yahoo.com dapat memiliki nilai perusahaan 47 kali dari
nilai revenue yang diraih. Ingin cepat kaya dengan terjun ke bisnis searching engine? Think
locally, act globally. Buatlah situsnya di Indonesia, tawarjab produknya ke seluruh dunia,
begitu traf�ic mencapai paling tidak 5‐10 juta rata‐rata unique user per‐sehari, segera jual
perusahaan tersebut dengan harga yang sangat tinggi. Jadilah anda seorang milyuner yang
siap untuk mengimplementasikan ide‐ide baru lainnya untuk melakukan bisnis di internet…
‐‐‐ akhir dokumen ‐‐‐
HALAMAN 4 DARI 4
(C) COPYRIGHT BY RICHARDUS EKO INDRAJIT, 2013
Aplikasi Search Engine dan Masalahnya
oleh Prof. Richardus Eko Indrajit - indrajit@post.harvard.edu
EKOJI999 Nomor
272, 7 Juni 2013
SERI 999 E-ARTIKEL SISTEM DAN TEKNOLOGI INFORMASI
Artikel ini merupakan satu dari 999 bunga rampai pemikiran Prof. Richardus Eko Indrajit di bidang sistem dan
teknologi informasi. Untuk berlangganan, silahkan kirimkan permohonan anda melalui alamat email indrajit@rad.net.id.
HALAMAN 1 DARI 4
(C) COPYRIGHT BY RICHARDUS EKO INDRAJIT, 2013
SERI 999 E-ARTIKEL SISTEM DAN TEKNOLOGI INFORMASI
PROF. RICHARDUS EKO INDRAJIT
Beberapa tahun yang lalu ketika sebuah konferensi internasional berjudul “Bridging the Gap
between Information Technology and Business” diselenggarakan oleh Harvard Business
School di San Fransisco, Yahoo! memperkenalkan konsep searching engine‐nya kepada para
peserta. Tujuannya cukup sederhana, yaitu mencari investor yang mau menanamkan uangnya
di perusahaan tersebut karena kebanyakan peserta konferensi adalah para investor kelas
kakap. Yang terjadi adalah bahwa setelah konferensi yang dilaksanakan selama 3 (tiga) hari
usai, tidak seorang investor‐pun mengerti mengenai konsep bisnis yang ditawarkan oleh
Yahoo!, walaupun secara intensif telah diterangkan pada setiap kesempatan yang ada. Lain
dahulu lain sekarang. Saat ini terlihat bagaimana orang‐orang di seluruh dunia berlomba‐
lomba memburu saham perusahaan yang mengklaim dirinya telah memiliki lebih dari 50 juta
pelanggan ini.
Internet merupakan suatu tempat dimana berjuta‐juta situs dapat diakses oleh berjuta‐juta
orang setiap harinya, tanpa mengenal batasan ruang dan waktu. Situs yang dikembangkan
oleh berbagai orang dan perusahaan sangat beragam sifatnya, mulai dari yang hanya berisi
data dan informasi ringkas mengenai pro�il sebuah organisasi sampai dengan yang dapat
dipergunakan sebagai sarana untuk melaksanakan transaksi electronic commerce.
Permasalahan yang timbul adalah bahwa perkembangan internet yang sangat cepat
(beberapa pakar mengatakan bahwa pertumbuhan jumlah situs di internet bergerak secara
eksponensial) telah mengakibatkan terjadinya banjir data dan informasi (information
overloaded) sehingga sangat menyulitkan pengguna (user) dalam mencari data dan informasi
yang diinginkan. Analogikan dengan sebuah jaringan televisi kabel yang memiliki satu juta
channel yang berbeda. Bagaimana seseorang dapat mengetahui apakah ada channel yang
menayangkan �ilm favoritnya lengkap dengan jadwal dan lokasinya? Atau bayangkan sebuah
perpustakaan negara yang memiliki koleksi satu milyar buku. Bagaimana seseorang dapat
tahu buku‐buku mana saja yang membahas subjek‐subjek tertentu yang diinginkan?
Fenomena inilah yang kemudian berkembang menjadi ide untuk membuat suatu program
yang dapat membantu para user internet dalam usahanya untuk mencari data maupun
informasi spesi�ik dalam waktu yang relatif sangat singkat (dalam hitungan detik). Mulailah
perusahaan‐perusahaan semacam Altavista.com, Excite.com, Yahoo.com, AskJeeves.com, dan
lain sebagainya berlomba‐lomba untuk membuat mesin pencari (searching engine) yang
terbaik. Secara prinsip, tujuan dari sebuah program searching engine adalah menemukan
dokumen atau arsip elektronis di internet yang sesuai dengan kebutuhan atau
permintaan pengguna dalam waktu yang sesingkat‐singkatnya. Kedua hal inilah, yaitu
kualitas hasil temuan dan waktu pencarian, yang kemudian menjadi pengukur baik tidaknya
kinerja sebuah searching engine. Gambar di bawah ini memperlihatkan 5 (lima) komponen
utama dari arsitektur sebuah program searching engine (Indrajit, 2000).
Komponen penting pertama dalah Query Interface, yang merupakan bentuk tampilan atau
format situs yang menyediakan fasilitas searching engine. Bentuk yang paling sederhana
adalah tersedianya sebuah kotak kosong di situs dimana user dapat menuliskan data atau
informasi yang ingin dicari (lihat situs Yahoo.com atau Altavista.com). Yang harus diketahui
oleh user adalah bahwa tidak semua situs memiliki kemampuan yang sama dalam membantu
user untuk mengekspresikan jenis data atau informasi yang ingin dicari. Dalam bahasa
komputer cara mengekspresikan ini disebut sebagai query. Contohnya adalah seseorang yang
ingin mencari data atau informasi mengenai hal‐hal yang berkaitan dengan �lora dan fauna di
Indonesia dapat menggunakan query semacam: “�lora” and “fauna” and “Indonesia”.
Walaupun secara internasional telah diusulkan dan ditentukan standar baku dalam
menuliskan sebuah query, namun terlihat bahwa masing‐masing situs menawarkan beragam
cara yang berbeda. Hal ini cukup beralasan mengingat bahwa pemakai internet sangat
beragam, dan berkisar dari anak‐anak sampai dengan para manula yang memiliki
HALAMAN 2 DARI 4
(C) COPYRIGHT BY RICHARDUS EKO INDRAJIT, 2013
SERI 999 E-ARTIKEL SISTEM DAN TEKNOLOGI INFORMASI
PROF. RICHARDUS EKO INDRAJIT
karakteristiknya sendiri‐sendiri. Yang utama bagi user adalah bahwa Query Interface yang
ditawarkan mudah dipergunakan dan efektif.
Komponen kedua adalah Query Engine, merupakan sebuah program yang bertugas untuk
menterjemahkan keinginan user ke dalam bahasa yang dimengerti oleh mesin komputer.
Secara teknis, perusahaan‐perusahaan penyedia searching engine berlomba‐lomba membuat
query engine yang baik sehingga selain tepat dalam mengekspresikan keinginan user, dapat
mula melakukan tugas pencarian secara cepat. Query Engine ini pulalah yang segera
melakukan pencarian arsip dan dokumen yang tepat di dalam sistem basis data (database)
yang bersangkutan.
Komponen selanjutnya adalah Database, yang pada dasarnya merupakan kumpulan atau
daftar dari dokumen maupun arsip dari seluruh situs yang ada di internet. Semakin besar
skala internet, akan semakin besar pula kapasitas penyimpan yang dibutuhkan.
Komponen keempat yang merupakan komponen terpenting dalam sebuah searching engine
adalah Spider. Secara berkala dan kontinyu, spider akan mendata setiap situs yang ada di
internet, baik yang baru maupun yang lama. Terhadap masing‐masing situs, selain alamatnya,
akan diambil kata‐kata kunci dari arsip maupun dokumen yang ditemukan. Katakanlah dari
situs Kompas.com akan diambil setiap kata pada kalimat judul berita, atau pada Amazon.com
akan diambil setiap kata pada judul buku. Di sinilah sebenarnya persaingan antara situs
terjadi, yaitu strategi dan teknik apa yang dipergunakan dalam melakukan sampling terhadap
kata‐kata yang akan menjadi kunci dalam pencarian arsip dan dokumen. Harap diingat bahwa
tidak semua situs melakukan proses updating dan sampling ini secara kontinyu (24 jam
sehari), yang dapat menyebabkan telah hilangnya beberapa arsip dan dokumen dari internet
saat user mencarinya.
Komponen kelima disebut sebagai Indexer, yang merupakan sebuah program untuk
mempercepat proses pencarian. Filoso�i yang dipergunakan mirip dengan prinsip
penggunaan indeks pada kamus atau buku‐buku. Perang antar situs pun terjadi di sini, karena
teknik melakukan indeks akan sangat berpengaruh terhadap kecepatan pencarian data atau
informasi. Biasanya yang terjadi di sini adalah adu algoritma (alur logika sebuah program)
antar para programmer yang direkrut oleh masing‐masing perusahaan.
Melihat anatomi searching engine di atas, terlihat bahwa membuat searching engine
sangatlah mudah. Yang sulit adalah mengalahkan kecepatan dan keakuratan dari searching
engine yang sudah ada sekarang. Hal inilah yang menyebabkan banyaknya pemain baru di
bisnis searching engine yang mencari market niche berupa pemilihan daerah‐daerah yang
menjadi fokus pencarian. Contohnya adalah Euroferret.com yang hanya mengkhususkan diri
pada pencarian arsip dan dokumen di situs‐situs yang ada di wilayah Eropa, atau Catcha.co.id
yang menawarkan pencarian arsip dan dokumen yang berada di wilayah geogra�is Asia
Tenggara. Biaya investasinya pun tidak dapat dibilang murah. Tengoklah Altavista yang pada
tahun 1997 harus melibatkan 3 prosesor (komputer) untuk penanganan Query Interface, 190
prosesor untuk Query Engine, 1 prosesor untuk Spider, 2 prosesor untuk Indexer, dan 300
Gigabytes kapasitas Database.
Pertanyaan selanjutnya yang kerap ditanyakan adalah seberapa besar peluang dan daya tarik
bisnis untuk membuat perusahaan penyedia searching engine. Mirip dengan bisnis surat
kabar atau majalah baru yang harus meningkatkan oplahnya terlebih dahulu sebelum dapat
memasang harga mahal untuk setiap iklan yang dipasang, dalam bisnis portal semacam
searching engine ini adalah traf�ic. Begitu jumlah orang yang mengakses situs searching
engine mencapai jutaan users, pada saat itulah waktu yang tepat untuk menawarkan
HALAMAN 3 DARI 4
(C) COPYRIGHT BY RICHARDUS EKO INDRAJIT, 2013
SERI 999 E-ARTIKEL SISTEM DAN TEKNOLOGI INFORMASI
PROF. RICHARDUS EKO INDRAJIT
pemasangan iklan (advertisement) di dalam dengan harga premium. Bahkan di Amerika,
bisnis yang diminati oleh para orang muda di Silicon Valley ini memiliki target bahwa setelah
2 tahun, dimana target traf�ic telah tercapai, maka hanya ada dua skenario yang akan dipilih
pemilik perusahaan: menjual perusahaan ke orang lain, atau go public. Mengapa demikian?
Karena mekanisme dan alam bisnis di sana sudah sedemikan rupa sehingga dalam waktu
singkat seseorang yang berbisnis internet akan dapat menjadi kaya dalam waktu singkat.
Tengoklah bagaimana perusahaan Yahoo.com dapat memiliki nilai perusahaan 47 kali dari
nilai revenue yang diraih. Ingin cepat kaya dengan terjun ke bisnis searching engine? Think
locally, act globally. Buatlah situsnya di Indonesia, tawarjab produknya ke seluruh dunia,
begitu traf�ic mencapai paling tidak 5‐10 juta rata‐rata unique user per‐sehari, segera jual
perusahaan tersebut dengan harga yang sangat tinggi. Jadilah anda seorang milyuner yang
siap untuk mengimplementasikan ide‐ide baru lainnya untuk melakukan bisnis di internet…
‐‐‐ akhir dokumen ‐‐‐
HALAMAN 4 DARI 4
(C) COPYRIGHT BY RICHARDUS EKO INDRAJIT, 2013