METODE SIMILARITY - MASHUP UNTUK FRAMEWORK MODUL RELEVANT CONTENT PADA CONTENT MANAGEMENT SYSTEM (CMS)

METODE SIMILARITY - MASHUP UNTUK FRAMEWORK MODUL RELEVANT CONTENT PADA CONTENT MANAGEMENT SYSTEM (CMS) SKRIPSI

Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika

Disusun Oleh : RIKY BAGUS MUHAJIR

M0508117

JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA

Oktober, 2012

METODE SIMILARITY - MASHUP UNTUK FRAMEWORK MODUL RELEVANT CONTENT PADA CONTENT MANAGEMENT SYSTEM (CMS) SKRIPSI

Diajukan untuk memenuhi sebagian persyaratan mendapatkan gelar Strata Satu Jurusan Informatika

Disusun Oleh : RIKY BAGUS MUHAJIR

M0508117

JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA

Oktober, 2012 HALAMAN JUDUL

MOTTO

Sesungguhnya sesudah kesulitan itu pasti ada kemudahan. Maka apabila kamu telah selesai (dari suatu urusan), kerjakanlah dengan sungguh-sungguh urusan yang lain. Dan hanya kepada Tuhanmulah hendaknya kamu berharap. (Q.S. 94 : 6-8)

Hai orang-orang yang beriman, Jadikanlah sabar dan shalatmu sebagai penolongmu, sesungguhnya Allah beserta orang- orang yang sabar” (Q.S. 1 : 153)

PERSEMBAHAN

Dipersembahkan untuk:

1. Ayah dan Ibu tercinta

2. Jurusan Informatika UNS

Metode Similarity - Mashup Untuk Modul Relevant Content Pada Content Management System (CMS) RIKY BAGUS MUHAJIR

Jurusan Informatika. Fakultas MIPA. Universitas Sebelas Maret

ABSTRAK

Manajemen konten yang baik atau yang lebih dikenal dengan smart content management system dapat dilakukan dengan berbagai cara, salah satunya dengan menyajikan berbagai informasi yang berkaitan dengan konten utama (relevant content) . Berbagai Informasi tersebut dapat berupa artikel, gambar, banner, dan juga video. Kandidat relevant content dapat berasal dari dalam maupun luar sistem (mashup), yang dimaksud dari dalam sistem disini adalah bahwa kandidat relevant content

diperoleh dari database sistem sendiri sedangkan yang dimaksud dari luar sistem adalah bahwa kandidat relevant content diperoleh dari berbagai website di internet. Relevant Content didapatkan dengan menghitung kemiripan metadata antara kandidat relevant content dengan konten utama. Dari hasil serangkaian uji coba didapatkan bahwa metode similarity – mashup untuk modul relevant content telah dapat terintegrasi pada CMS dengan baik. Selain itu juga dapat dilihat bahwa sering kali berbagai kandidat relevant content yang berasal dari luar sistem (mashup) memiliki nilai similarity yang lebih tinggi dibandingkan kandidat yang berasal dari dalam sistem.

Kata Kunci : CMS, cosine, mashups, metadata, relevant content, similarity

Metode Similarity - Mashup Untuk Modul Relevant Content Pada Content Management System (CMS) RIKY BAGUS MUHAJIR

Department of Informatic. Mathematic and Science Faculty. Sebelas Maret

University

ABSTRACT

A good content management or better known as smart content management system can be done in various ways, one of them by presenting a variety of information related to the main content (relevant content). A variety of information can be articles, pictures, banners, and video. Candidates relevant content are got from internal and external system (mashup), from internal system means that the candidate relevant content are got from the database system and then from the external system means that the candidate relevant content are got from various websites on the internet. Relevant Content is obtained by calculating the similarity between candidates relevant content metadata with main content metadata. The results from the series of testing are found that the method of similarity - mashups for relevant content module has been well integrated into the CMS. It can also be seen that the candidates relevant content from the external system (mashup) often has a higher similarity value than candidates from the internal system.

Keywords: CMS, cosine, mashups, metadata, relevant content, similarity

KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat Allah Subhanahu Wa Ta’ala yang senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat

menyelesaikan skripsi dengan judul Metode Similarty - Mashup Untuk Modul Relevant Content Pada Content Management System (CMS), yang menjadi salah satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas Sebelas Maret (UNS) Surakarta.

Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan skripsi ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada :

1. Ibu Umi Salamah, M.Kom, ketua Jurusan Informatika FMIPA UNS.

2. Ibu Dewi Wisnu Wardani, S. Kom, M.S., dosen pembimbing I yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini.

3. Bapak Meiyanto Eko Sulistyo, S.T, M, Eng., selaku dosen pembimbing II yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini.

4. Bapak dan Ibu dosen serta karyawan di Jurusan Informatika FMIPA UNS yang telah mengajar penulis selama masa studi dan membantu dalam proses penyusunan skripsi ini.

5. Seluruh keluarga terutama Ayah dan Ibu, untuk setiap kasih sayang dan pengorbanan yang tak mungkin terbalas.

6. Seluruh teman terutama mahasiswa angkatan 2008 Jurusan Informatika FMIPA UNS dan Rima Dhian Permata Hendry yang setia menemani perjalanan dengan dukungan dan semangatnya.

Penulis berharap semoga skripsi ini dapat bermanfaat bagi semua pihak yang berkepentingan.

Surakarta, Oktober 2012

Tabel 4. 1 Metadata Kandidat Relevant Content Untuk Proses Similarity ................ 25 Tabel 4. 2 Argument Batasan Pencarian Pada Google Search API............................ 27 Tabel 4. 3 Metadata Kandidat Relevant Content Artikel ........................................... 29 Tabel 4. 4 Metadata Kandidat Relevant Content Gambar ......................................... 31 Tabel 4. 5 Metadata Kandidat Relevant Content Video ............................................. 33 Tabel 4. 6 Website Acuan Konten Mashup ................................................................ 33 Tabel 4. 7 Jumlah Relevant Content Yang Ditampilkan ............................................ 35 Tabel 4. 8 Nilai Rata-Rata Hasil Relevant Content Internal Dan External ............... 36 Tabel 4. 9 Selisih Antara Nilai Rata-Rata Relevant Content Internal Dan External . 36

DAFTAR GAMBAR

Gambar 2. 1 Ilustrasi Algoritma Pembobotan tf-idf ..................................................... 9 Gambar 2. 2 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta

query Q (Mandala, 2006) .................................................................................... 11 Gambar 2. 3 Matrik Representasi VSM ..................................................................... 12 Gambar 3. 1 Diagram Metodologi Penelitian ............................................................ 20 Gambar 4. 1 Framework Modul Relevant Content .................................................... 23 Gambar 4. 2 Proses Similarity - Mashup ................................................................... 23

DAFTAR LAMPIRAN

LAMPIRAN A ...................................................................................................... 42 LAMPIRAN B ...................................................................................................... 62 LAMPIRAN C ...................................................................................................... 71 LAMPIRAN D ...................................................................................................... 87

PENDAHULUAN

1.1 Latar Belakang

Website memberi sumbangan besar dalam pemberian berbagai informasi. Banyak informasi yang ada disuatu website akan tetapi cara penyampaian informasi tersebut sering kali kurang efektif. Informasi yang kurang efektif ini dapat dilihat dari banyaknya konten pada suatu halaman web seperti iklan, gambar, link, dan berbagai konten lainnya yang sering kali tidak ada hubungannya dengan isi dari konten utama (Mulendra dan Liu, 2009). Konten-konten seperti ini justru membuat penguna merasa terganggu dan kesulitan dalam memperoleh informasi. Oleh karena itu diperlukan manajemen konten yang baik untuk mengelola berbagai konten tersebut.

Manajemen konten yang baik diharapkan dapat menjadikan suatu website menjadi lebih inovatif dan kaya akan informasi sehingga dapat memudahkan pengunjung situs dalam memperoleh informasi. Manajemen konten yang baik atau yang lebih dikenal dengan smart content management system dapat dilakukan dengan berbagai cara, salah satunya dengan menyajikan berbagai informasi yang berkaitan dengan konten utama (relevant content). Pada ( Broder et al., 2007) manajemen konten dilakukan dengan menampilkan berbagai iklan yang berkaitan dengan konten utama pada website.

Disamping mengunakan relevant content, manajemen konten yang baik juga bisa dilakukan dengan mengunakan mashup. Mashup merupakan cara baru dalam dunia aplikasi web yang menggabungkan data dan informasi dari berbagai sumber kemudian menampilkannya dalam sajian informasi yang baru (Thor, 2007). Isi dari website yang menerapkan konsepsi mashup biasanya berasal dari penyedia layanan pihak ke tiga dengan antarmuka yang disebut sebagai API (application programming interface) (Zang dan Rosson, 2008). Saat ini sudah terdapat beberapa CMS yang menggunakan mashup akan tetapi mashup tersebut hanya berupa kolom pencarian atau mashup hanya menampikan informasi dari Disamping mengunakan relevant content, manajemen konten yang baik juga bisa dilakukan dengan mengunakan mashup. Mashup merupakan cara baru dalam dunia aplikasi web yang menggabungkan data dan informasi dari berbagai sumber kemudian menampilkannya dalam sajian informasi yang baru (Thor, 2007). Isi dari website yang menerapkan konsepsi mashup biasanya berasal dari penyedia layanan pihak ke tiga dengan antarmuka yang disebut sebagai API (application programming interface) (Zang dan Rosson, 2008). Saat ini sudah terdapat beberapa CMS yang menggunakan mashup akan tetapi mashup tersebut hanya berupa kolom pencarian atau mashup hanya menampikan informasi dari

Penelitian pada tugas akhir ini mencoba mengembangkan aplikasi pariwisata Indonesia berbasis online dengan menerapkan metode similarity- mashup untuk memperoleh berbagai informasi yang relevant degan konten utama. Berbagai ulasan, gambar, dan video diharapkan dapat mampu menberikan informasi yang lebih informatif sehingga membuat wisatawan tertarik untuk mengunjungi objek wisata di Indonesia.

Dalam tugas akhir ini akan dikaji metode similarity-mashup untuk modul relevant content pada CMS yang mana modul tersebut mampu menyajikan konten-konten yang berkaitan denggan konten utama. Relevant content ini akan diletakkan disamping konten utama. Relevant content diperoleh setelah melakukan proses penyamaan (similarity) antara konten utama dengan berbagai kandidat relevant content baik yang berasal dari dalam maupun luar sistem. Untuk proses similarity digunakan metode Cosine Similarity. Kandidat relevant content dari luar sistem diperoleh dari berbagai website di internet. Adapun berbagai konten dari luar sistem diantaranya; artikel dan gambar dari Google, Video dari Youtube , informasi dari Wikipedia, dan juga berbagai konten dari website yang lain.

1.2 Rumusan Masalah

Berdasarkan ulasan yang telah dijabarkan pada latar belakang dapat

dirumuskan permasalahan yakni bagaimana memanfaatkan metode similarity – mashup untuk memperoleh berbagai konten yang relevant dengan konten utama pada suatu website.

1. Untuk website yang memakai bahasa Indonesia

2. Artikel pada website tidak terbatas oleh waktu

3. Content management system yang digunakan adalah Lokomedia

4. Relevant content berupa artikel, gambar, dan video bukan berupa file (doc, pdf)

5. Domain yang digunakan adalah tentang pariwisata

1.4 Tujuan Penelitian

Tujuan dari tugas akhir ini adalah memanfaatkan metode similarity –

mashup untuk mendapatkan berbagai konten yang relevant dengan konten utama pada suatu website.

1.5 Manfaat Penelitian

Manfaat dari penelitian pada tugas akhir ini adalah untuk memperkaya kajian pembuatan modul relevant content dengan pemanfaatkan metode similarity - mashup , yang mana modul ini secara otomatis mampu menyajikan berbagai konten yang relevant dengan konten utama pada suatu website.

1.6 Sistematika Penulisan

Penelitian ini akan disusun menurut sistematika penulisan sebagai berikut :

BAB I PENDAHULUAN

Pendahuluan berisi mengenai latar belakang, rumusan masalah, pembatasan masalah, tujuan, manfaat, dan sistematika penulisan. Keseluruhan dari bagian ini memberikan gambaran umum dari penelitian yang dilakukan.

Tinjauan pustaka memuat penjelasan secara rinci mengenai teori-teori yang digunakan sebagai dasar dalam penelitian ini. Bagian ini juga memuat mengenai penelitian terdahulu dan rencana penelitian yang akan dilakukan oleh penulis.

BAB III METODE PENELITIAN

Pada bab ini membahas metode yang digunakan dalam penelitian ini. Metode dalam penelitian ini terdiri atas lima tahapan, yaitu studi literatur, perancangan framework, pengumpulan data, experimental, dan experimental result .

BAB IV PEMBAHASAN

Bagian ini berisi pembahasan dari hasil yang diperoleh dari penelitian ini, meliputi penjelasan mengenai perancangan framework, pengumpulan data, experimental , dan experimental result

BAB V PENUTUP

Penutup berisi kesimpulan penelitian dan saran sebagai bahan pertimbangan untuk penelitian selanjutnya

BAB II TINJAUAN PUSTAKA

2.1 Dasar Teori

2.1.1 Sistem Manajemen Konten

Sistem manajemen konten yang biasa dikenal dengan Content Management System , disingkat CMS, adalah sistem perangkat lunak yang memungkinkan seseorang untuk mengatur proses berjalannya suatu situs Web (Simarmata, 2010). Sistem manajemen konten (Nakano, 2001) memungkinkan administrator mengelola informasi seperti membuat, melakukan perubahan, merilis, menyimpan, menghapus, dan lain-lain.

Sebelum ada CMS, seseorang pengembang web harus mengerti ilmu yang diperlukan untuk membuat dan mengelola suatu Web. Beberapa ilmu tersebut diantaranya PHP, HTML, CSS, dan lain-lain. Namun dengan adanya CMS seperti sekarang ini tidak perlu mesti belajar berbagai ilmu tersebut secara mendalam lagi. Dengan kata lain CMS dapat mempermudah dalam mengelola suatu web.

Disamping memudahkan bagi pengembang web, suatu CMS juga harus menyajikan suatu web yang inovatif dan kaya akan informasi sehingga dapat memudahkan pengunjung situs dalam memperoleh informasi. Website yang inovatif dan kaya akan informasi ini dapat diperoleh dengan manajemen konten yang baik atau biasa dikenal dengan smart content manajemen system.

Manajemen konten yang baik dilakukan dengan menampilkan berbagai iklan yang berkaitan dengan konten utama pada website ( Broder et al., 2007). Pada (Rohmatulloh et al., 2009) manajemen koten yang baik dilakukan dengan menerapankan teknologi mashup, yakni dengan cara melalukan pencarian melalui kolom pencarian untuk mendapatkan artikel yang terkait dengan keyword yang dimasukkan. Sedangkan pada (Himawan, 2010) juga digunakan teknologi mashup , yakni dengan menampilkan rute terpendek menuju tempat wisata dengan

Sebelum melakukan proses similarity antar dokumen perlu dilakukan proses pengolahan terlebih dahulu. Text mining digunakan untuk menggali informasi pada dokumen tidak terstruktur (Dorre et al., 1999). Sebelum melakukan text mining, terlebih dahulu diperlukan proses pengubahan bentuk menjadi data yang terstruktur sesuai kebutuhan. Biasanya akan dilakukan perubahan menjadi nilai-nilai numerik. Setelah data menjadi data terstruktur dan berupa nilai numerik maka data dapat dijadikan sebagai sumber data yang dapat diolah lebih lanjut. Dalam text mining ini dibagi dalam 3 proses utama, yaitu Text Preprocessing, Text Transformation dan Pattern Discovery.

2.1.2.1 Text Preprocessing

Dalam text mining, tahapan awal yang dilakukan adalah text preprocessing . Tahap ini bertujuan untuk mempersiapkan teks menjadi data yang akan diproses pada tahap selanjutnya. Terdapat beberapa hal yang dilakukan

dalam tahap ini, baik itu berupa tindakan yang bersifat kompleks seperti part-of- speech (pos), tagging , parse tree, maupun tindakan sederhana seperti tokenization. Tokenization merupakan proses pengolahan token yang terdapat dalam rangkaian teks (Grossman, 2001). Dalam pembuatan indexs istilah dokumen dipecah

menjadi unit-unit lebih kecil misalnya berupa kata, frasa, atau kalimat. Unit pemrosessan tersebut disebut token. Tahapan ini juga menghilangkan karakter- karakter tertentu seperti tanda baca, html tag dan mengubah semua token kebentuk huruf kecil (case folding).

2.1.2.2 Text Transformation

Pada tahap ini dilakukan proses penyaringan (filtration) dengan menghilangkan stop-word. Stop-word merupakan kata yang sering muncul dalam dokumen tetapi tidak memiliki makna yang berarti. Filtering berfungsi untuk mengurangi daftar kata indexs dan mempercepat indexing (Grossman, 2001). Penghapusan stop-word dari dalam suatu koleksi dokumen pada satu waktu Pada tahap ini dilakukan proses penyaringan (filtration) dengan menghilangkan stop-word. Stop-word merupakan kata yang sering muncul dalam dokumen tetapi tidak memiliki makna yang berarti. Filtering berfungsi untuk mengurangi daftar kata indexs dan mempercepat indexing (Grossman, 2001). Penghapusan stop-word dari dalam suatu koleksi dokumen pada satu waktu

2.1.2.3 Pattern Discovery

Tahap ini merupakan tahap terpenting dari seluruh proses text mining. Pada penelitian ini, operasi yang dilakukan adalah pengukuran kemiripan teks (similarity). Teknik yang digunakan pada tahap ini adalah dengan melakukan pembobotan (weighting) terhadap term dari hasil tahap text transformation. Setiap term diberikan bobot sesuai dengan skema pembobotan yang dipilih, baik itu pembobotan lokal, global atau kombinasi keduanya. Banyak aplikasi menerapkan pembobotan kombinasi berupa perkalian bobot lokal term frequency dan global inverse document frequency , ditulis

. Di sini peneliti akan menggunakan . Dalam kemiripan antar dokumen didefinisikan berdasarkan representasi

bag-of-words dan dikonversi ke suatu model ruang vektor (vector space model). Setelah merepresentasi term ke dalam bentuk vektor akan dilakukan proses pencarian kemiripan dengan menghitung nilai cosinus antar vektor yang dalam penelitian ini menggunakan metode Cosine Similarity yang akan di jelaskan pada pembahasan berikutnya.

2.1.3 Stemming

Algoritma stemming untuk beberapa bahasa telah dikembangkan, seperti Algoritma Porter untuk teks berbahasa inggris, Algoritma Porter untuk teks berbahasa Indonesia, dan juga Algoritma Nazief & Adriani untuk teks berbahasa Indonesia. Dalam (Agusta, 2009) ditunjukkna bahwa algoritma Nazief & Adriani memiliki keakuratan yang lebih tinggi. Algoritma ini didahului dengan pembacaan tiap kata dari dokumen sampel. Sehingga input dari algoritma ini Algoritma stemming untuk beberapa bahasa telah dikembangkan, seperti Algoritma Porter untuk teks berbahasa inggris, Algoritma Porter untuk teks berbahasa Indonesia, dan juga Algoritma Nazief & Adriani untuk teks berbahasa Indonesia. Dalam (Agusta, 2009) ditunjukkna bahwa algoritma Nazief & Adriani memiliki keakuratan yang lebih tinggi. Algoritma ini didahului dengan pembacaan tiap kata dari dokumen sampel. Sehingga input dari algoritma ini

1. Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma

berhenti.

2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah

ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.

3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a

a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan

dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.

4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.

b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti.

5. Melakukan Recoding.

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

Term Frequency (tf) merupakan frekuensi kemunculan suatu kata (term) dalam dokumen. Oleh sebab itu, tf memiliki nilai yang bervariasi dari satu dokumen ke dokumen yang lain bergantung pada tingkat kepentingan sebuah term dalam sebuah dokumen yang diberikan. Semakin sering suatu term muncul dalam sebuah dokumen, maka term tersebut akan memiliki nilai tf yang lebih besar daripada term yang jarang muncul dan hal ini berarti semakin penting term-term tersebut.

Pengunaan faktor tf saja dalam menentukan pembobotan suatu term belum mencukupi. Untuk itu digunakan juga faktor Inverse Document Frequency (idf) yang merupakan sebuah statistik “global” yang mengkarakteristikkan sebuah term dalam keseluruhan koleksi dokumen. Idf merupakan sebuah perhitungan dari bagaimana term yang didistribusikan secara luas pada koleksi dokumen yang bersangkutan. Semakin sedikit dokumen yang mengandung term yang dimaksud, maka nilai idf semakin besar. Jika setiap dokumen dalam koleksi mengandung term yang bersangkutan, maka nilai idf dari term tersebut adalah nol. Hal ini menunjukkan bahwa sebuah term yang muncul pada setiap dokumen dalam koleksi tidak berguna untuk membedakan dokumen berdasarkan topik tertentu.

Ilustrasi algoritma tf-idf (Harlian, 2006) ditunjukkan pada gambar 4.2.

aku .aku

aku .aku aku aku . ….

df = 3 idf = log (N/df) = 0.2218

N=5

= dokumen = banyaknya term yang dicari pada sebuah dokumen = total dokumen = banyaknya dokumen yang mengandung term yang dicari

Dalam penelitian ini, algoritma pembobotan Term Frequency (tf) – Inverse

Document Frequency (idf) diterapkan pada tahap similarity document. Nilai tf-idf diperoleh dengan menggunakan persamaan (Lee, 1997) :

Dimana : = bobot term ke-j terhadap dokumen ke-i = jumlah kemunculan term j dalam dokumen i = jumlah seluruh dokumen

= jumlah dokumen yang mengandung term j

Berdasarkan pada persamaan (1), berapapun besarnya nilai , apabila N = maka akan didapatkan hasil 0 (nol) untuk perhitungan idf. Untuk itu dapat ditambahkan nilai 1 pada sisi idf, sehingga perhitungan bobotnya menjadi :

Penghitungan bobot dari term tertentu dalam sebuah dokumen dengan menggunakan

menunjukkan bahwa deskripsi terbaik dari dokumen

adalah term yang banyak muncul dalam dokumen tersebut dan sangat sedikit muncul pada dokumen yang lain.

2.1.5 Vector Space Model

Model Ruang Vektor ( Vector Space Model ) merupakan suatu metode yang cukup banyak digunakan dalam sistem Information Retrieval. Dengan menggunakan Model Ruang Vektor, dokumen –dokumen yang ada akan direpresentasikan kedalam n dimensi vektor.

Banyaknya dimensi dari ruang vektor akan ditentukan oleh jumlah kata signifikan yang terdapat dalam dokumen. Misalkan terdapat sejumlah n kata yang berbeda sebagai kamus kata (vocabulaty) atau indeks kata (terms index). Kata-kata ini akan membentuk ruang vektor yang memiliki dimensi sebesar n. Setiap kata i dalam dokumen atau query diberikan bobot sebesar w i . Baik dokumen maupun query direpresentasikan sebagai vektor berdimensi n.

Sebagai contoh terdapat 3 buah kata (t 1, t 2, dan t 3 ), 2 buah dokumen (D 1 dan

D 2 ) serta sebuah query Q. Masing-masing bernilai:

D 1 = 2t 1 +3t 2 +5t 3

D 2 = 3t 1 +7t 2 +0t 3 Q = 0t 1 +0t 2 +2t 3

Gambar 2. 2 Contoh model ruang vektor dengan dua dokumen D1 dan D2, serta query Q (Mandala, 2006)

Koleksi dari n buah dokumen dapat direpresentasikan dalam Model Ruang Vektor dengan sebuah matrik term-document (Mandala, 2006) yang ditunjukkan pada gambar 2.3.

Gambar 2. 3 Matrik Representasi VSM

2.1.6 Matching Document

Matching document merupakan tahap dimana akan dilakukan penghitungan kemiripan (similarity) antara dokumen acuan dengan kandidat dokumen. Dalam penelitian ini dokumen berupa metadata yang mana akan dihitung kemiripannya dengan metode Cosine Similarity.

Dimana Cosine Similarity dirumuskan dengan (Lee, 1997):

D = Dokumen acuan = Dokumen ke-i

= Bobot term j pada dokumen acuan = Bobot term j pada dokumen i

Similarity atau

1 jika D = D i , sebaliknya similarity

= 0 ketika D dan D i tidak memiliki kesamaan sama sekali.

Term vector space

Mashup merupakan cara baru dalam dunia aplikasi web yang menggabungkan data dan informasi dari berbagai sumber kemudian menampilkannya dalam sajian informasi yang baru (Thor, 2007). Atau dengan kata lain, teknologi mashup menjadikan keseluruhan data di internet sebagai basisdata universal yang dengan mudah data tersebut dapat diambil sesuai dengan apa yang diinginkan. Arsitektur dari apliaksi web mashup terdiri dari 3 bagian utama yaitu content provider, mashup hosting site, dan client web browser (Marrill, 2006).

1. Content Povider Sumber data dari mashup. Data biasanya didapatkan dengan menggunakan API atau protokol web lain seperti REST atau RSS.

2. Mashup hosting site Web yang menyediakan layanan baru dari bermacam sumber data yang tidak dipunyai oleh web tersebut.

3. Client Web Browser Konsumen yang menggunakan layanan mashup biasanya berbentuk web browser yang menampilkan web mashup.

Menurut (Ankolekar et al., 2007) ada empat alasan mengapa digunakan teknologi mashup, yakni reusing data from the web, dynamic data resources, personalization of website, dan giving back to the word. Adapun penjelasan dari empat alasan tersebut adalah sebagai berikut:

1. Reusing data from the web Informasi yang ditampilkan diambil dari internet. Dengan kata lain tidak memerlukan database sendiri untuk kasus ini karea ahanya menggunakan kembali data yang sudah ada di internet.

2. Dynamic data sources 2. Dynamic data sources

3. Personalisation of website Dengan website yang didukung oleh teknologi relevant content dan mashup seolah-olah membuat website milik pribadi si pengunjung. Hal ini dikarenakan dapat ditampilkannya berbagai informasi yang terkait dengan informasi yang ingin dicari pengunjung.

4. Giving back to the word Disamping pengembang web dapat memperoleh berbagai informasi dari berbagai sumber di internet dengan menggunakan teknologi mashup , hal lain yang dapat dilihat adalah manfaat bagi website yang dijadikan sebagai sumber informasi. Dengan menjadikan suatu website sebagai sumber informasi dapat menambah rating daripada website itu sendiri. Oleh karena rating web menjadi naik dan bagus, maka semakin mudah pula pencarian akan situs tersebut menggunakan mesin pencari seperti Google maupun Yahoo.

Selain kelebihan kelebihan yang ditawarkan, mashup sendiri mempunyai beberapa kekurangan sebagai timbal balik dari keuntungan yang didapatkan. Kekurangan tersebut antara lain adalah ketergantungan aplikasi terhadap sumber data mashup dan koneksi internet.

2.1.8 Google API

Google menyediakan berbagai API (Application Programming Interface) yang sangat berguna bagi pengembang web maupun aplikasi desktop untuk memanfaatkan berbagai fitur yang disediakan oleh Google.

API secara sederhana bisa diartikan sebagai kode program yang merupakan antarmuka atau penghubung antara aplikasi atau web yang kita buat dengan fungsi-fungsi yang dikerjakan. Ada beberapa Google APIs diantaranya: Google Maps API, Google Search API, Google Feeds API, Google Language

Picker API, dan Google Youtube API.

2.2 Penelitian Terkait

2.2.1 Web Document Text and Images Extraction using DOM Analysis and

Natural Language Processing (Mulendra dan Liu, 2009) Pada penelitian ini dilakukan teknik HTML DOM analysis dan Natural

Language Proccesing (NPL) untuk secara otomatis melakukan ekstraksi artikel utama dan gambar yang berhubungan dengan artikel tersebut dari suatu halaman web.

Aplikasi yang akan dibuat mempunyai masukan (input) berupa halaman web (HTML Document). Aplikasi mempunyai kemampuan untuk memisahkan konten-konten yang menggangu atau konten-konten yang tidak ada hubungannya dengan artikel utama. Dengan cara ini akan dihasilkan output berupa artikel dan gambar yang efektif sehingga lebih mudah dibaca dan dimengerti oleh penguna.

Sistem bekerja dengan mengunakan DOM tree untuk melakukan ekstraksi berbagai konten yang ada pada halaman web. DOM object digunakan untuk melakukan ekstraksi artikel text pada body html dalam bentuk blok konten. Kemudian blok konten tersebut dibagi lagi menjadi sub blok konten. Setiap sub blok konten selanjutnya dianalisis lagi sehingga terbentuk DOM tree. Setiap node pada DOM tree merupakan elemen tag-HTML. Adapun elemen tag-HTML yang digunakan untuk ekstraksi text adalah ; div, p, br, li, ul, ol, td, tr, table, h1-6, dan hr. Sedangkan untuk ektraksi gambar dari halaman web juga dengan mudah dapat dilakukan dengan DOM, yakni dengan mengunakan elemen <img> pada tag html .

Setelah menjalankan penelitian ini didapatkan hasil bahwa ekstraksi halaman HTML mengunakan DOM menghasilkan akuransi lebih dari 90%. Sedangkan untuk ke akurasian ekstraksi gambar sekitar 85%.

Dalam sebuah halaman web memuat banyak informasi yang bukan merupakan bagian dari konten utama. Informasi tersebut seperti barner ads, navigation bars, copy right and privacy notices, dan juga iklan yang tidak sesuai dengan konten utama. Pada penelitian ini akan dilakukan ekstrasi untuk mendapatkan konten utama dari suatu halaman web.

Ekstraksi konten dilakukan dengan mengunakan HTML Pharse untuk merepresentasikan halaman web dalam bentuk DOM Tree. Proses selanjutnya adalah menemukan informasi yang berhubungan dari halaman web. Untuk itu dibuatlah Content Structure Tree (CST) yang berbasis pada DOM Tree. Selanjutnya dilakukan proses similarity dengan mengunakan metode cosine similarity. Dengan menggunakan proses similarity pada CST kita dapat dengan mudah mengetahui blok informasi yang ingin kita tahu.

Pada penelitian ini menghasilkan hasil yang lebih karena biasanya penelitian sejenis hanya berbasis pada DOM tree sedangakan pada penelitian ini berbasis pada CST yang dibentuk melalui DOM tree dan juga dapat melakukan ekstraksi dokumen yang saling berhubungan dari suatu halaman web.

2.2.3 An Approach in Web Content Mining for Clustering Web Pages

(Etemadi dan Moghaddam, 2010) Saat ini website dan internet memberi sumbangan besar dalam pemberian

berbagai informasi. Ada banyak sekali data di internet, oleh sebab itu dibutuhkan suatu alat untuk memperoleh data-data tersebut dan mengubahnya menjadi informasi yang berguna. Pengelompokan halaman web menjadi salah satu cara yang dapat digunakan.

Pana jurnal ini digunakan pendekatan baru untuk melakukan pengelompokan halaman web berdasarkan isi (content), yakni dengan menggunakan expressions dan key term yang ada pada halaman web sebagai acuan. Dari key term tersebut selanjutnya dibentuk ke dalam vector, kemudian melakukan perbandingan antara nilai similarity mengunakan gabungan antara

Jaccard – Cosine similarity didapatkan hasil index yang lebih tinggi, yakni dengan rata-rata perbedaan index sebesar 0.4019

2.2.4 Penerapan Teknologi Marshup Pada Aplikasi Pariwisata Berbasis Web Nusantara View : Modul Transportasi Dengan Pendekatan

Algoritma Dijkstra (Himawan, 2010) Dengan kemajuan teknologi informasi saat ini dimungkinkan untuk

memberikan informasi lebih kepada para wisatawan, salah satunya dengan menggunakan teknologi mashup. Pada jurnal ini akan diambil informasi transportasi dari berbagai situs guna menunjukkan rute ke objek wisata yang ingin dikunjungi wisatawan. Dengan adanya informasi transportasi ini, maka calon wisatawan tidak perlu membuka website lain untuk mendapatkan informasi mengenai sarana transportasi yang akan mereka gunakan. Adapun sumber yang akan diguanakan untuk membuat aplikasi mashup adalah Google Map Api dengan menambahkan algoritma Dijkstra.

Dari penelitian ini telah berhasil dibuat suatu aplikasi mashup dengan memanfaatkan Google Map Api dan dengan penambahan algoritma dijkstra pada Google Map Api sehingga dapat membuat sistem nenunjukkan jalur terpendek untuk menuju tempat pariwisata yang ingin dikunjungi wisatawan.

2.2.5 Penerapan Teknologi Mashup Pada Aplikasi Pariwisata Berbasis WEB NusantaraView: Modul Blog & Berita dan Facebook

(Rohmatulloh et al., 2009) Informasi atau ulasan mengenai objek pariwisata beserta berita-berita

tentang pariwisata sangat dibutuhkan oleh calon wisatawan. Disisi lain, sebagian besar situs pariwisata Indonesia masih menyediakan informasi atau ulasan dan berita pariwisata yang bersifat statis dan tidak aktual. Untuk itu dibuatlah suatu aplikasi berbasis web yang disebut NusantaraView.

NusantaraView dikembangakan dengan mengunakan CMS Joomla serta NusantaraView dikembangakan dengan mengunakan CMS Joomla serta

Pada penelitian ini menghasilkan sebuah komponen Joomla! yang menyediakan informasi mengenai ulasan dan berita tentang objek pariwisata Indonesia. Dengan tambahan penerapan teknologi Mashup, komponen tersebut tidak membutuhkan basisdata dikarenakan data diambil langsung dari internet.

2.2.6 An information-theoretic definition of similarity (Lin, 1998)

Similarity merupakan konsep penting yang sering kali digunakan. Ada beberapa macam pendekatan dalam similarity yang dapat diterapkan dalam berbagai bidang. Pada jurnal ini akan dijelaskan definisi dari similarity dan berbagai pendekatan dalam similarity itu sendiri.

Intuisi yang perlu dipahami terkait similarity:

a. Intuisi 1: A dan B dianggap similarity apabila ada kesamaan antar keduanya. Semakin banyak kesamaan maka semakin similar

b. Intuisi 2: A dan B dianggap tidak similarity apabila ada perbedaan antar keduanya. Semakin banyak perbedaan maka semakin tidak similar

c. Intuisi 3: Maximum similarity antara A dan B diperoleh apabila A dan B identik. Tidak peduli berapa banyak kesamaan diantara mereka.

2.2.7 A Semantic Approach to Contextual Advertising (Broder et al., 2007)

Pada penelitian ini akan dilakukan pendekatan untuk menghasilkan suatu sistem yang mampu menampilkan iklan yang sesuai dengan isi artikel utama pada suatu halaman web.

konten tersebut seperti tittle, body, dan bid phrase. Selanjutnya sistem melakukan matching (mencocokkan) kesamaan antara hasil ekstraksi konten halaman web dengan konten yang ada pada iklan. Klasifikasi halaman web dan iklan akan

digunakan tiga metode. Metode pertama dan kedua dilakukan dengan melakukan training pada halaman dengan menjalankan query taksonomi pada web pencarian dan memberikan label pada 10 hasil pencarian setelah dilakukan filtering. Sedangkan pada sisi iklan juga dilakukan pelatihan dengan mengunakan SVM hirarki dan klasifikasi log-regresi. Metode ketiga sama denga metode pertama bedanya hanya pada proses penyaringan. Dimana yang disaring adalah halaman dengan konten rendah dan halaman yang tidak cocok dengan iklan. Pada penelitian ini berhasil didapatkan iklan yang berkaitan dengan konten pada halaman web.

2.3 Rencana Penelitian

Penelitian ini akan mengkaji metode similarity – mashup untuk modul relevant content pada CMS. Metode similarity – mashup diharapkan dapat

memberikan berbagai konten yang berkaitan (relevant) dengan konten utama. Berbagai konten tersebut meliputi artikel, gambar, video, dan banner. Kandidat relevant content berasal dari internal dan external sistem (mashup). Relevant Content didapatkan dengan menghitung kemiripan metadata antara kandidat relevant content dengan konten utama.

BAB III METODOLOGI PENELITIAN

Dalam penelitian ini terdapat beberapa tahap dalam pengerjaan untuk digunakan sebagai awal dalam menyelesaikan penelitian. Acuan ini menjelaskan apa yang harus dilakukan dalam penelitian hingga pembuatan laporan akhir. Tahap-tahap dalam penelitian adalah sebagai berikut:

Gambar 3. 1 Diagram Metodologi Penelitian

3.1 Studi Literatur

Pada tahap ini akan dilakukan studi literatur berkaitan dengan masalah sistem informasi retrieval, text mining, dan metode pencocokan (similarity) melalui berbagai macam media, antara lain melalui internet, jurnal-jurnal dan berbagai buku. Informasi yang telah diperoleh dalam tahap studi literatur selanjutnya digunakan sebagai dasar dalam menjalankan penelitian ini.

3.2 Perancangan Framework

Pada tahap ini akan dilakukan perancangan framework metode similarity –

mashup untuk modul relevant content pada CMS. Cara kerja modul relevant content ini adalah dengan menampilkan berbagai konten yang mempunyai keterkaitan dengan konten utama. Konten-konten tersebuat berasal dari hasil proses text mining antara metadata dari konten utama dengan metadata dari berbagai kandidat relevant content baik itu yang berasal dari internal maupun external sistem.

Studi Literatur

Experimental Result

Pada tahap ini akan dilakukan pengumpulan data yang nantinya akan dijadikan sebagai kandidat relevant konten. Data kandidat relevant content berasal dari dua sumber yaitu internal dan external sistem. Data internal sistem yang berupa artikel, gambar, banner, dan video didapatkan dari berbagai website di internet dan selanjutnya di simpan ke dalam database. Sedangkan data dari external sistem merupakan data yang secara langsung diambil dari berbagai website di internet ketika modul relevant content berjalan (mashup). Data dari external sistem berupa artikel, gambar, dan video.

3.4 Experimental

Pada tahap ini akan dilakukan experiment terhadap modul relevant content. Experiment akan dilakukan dengan melakukan input data berupa artikel selanjutnya melihat apakah modul relevant content bisa menampilkan konten- konten yang relevant dengan artikel yang diinputkan tersebut. Apabila modul relevant content dapat menapilkan konten-konten yang relevant dengan konten utama berarti modul telah berjalan dengan baik.

3.5 Experimental Result

Pada tahap ini akan dilakukan analisa pada hasil experiment dengan melihat kesuksesan berjalannya modul relevant content dan hasil dari relevant content yang dihasilkan. Adapun beberapa kriteria yang akan dianalisa diantaranya :

1. Pertama akan dilihat apakah modul relevant content dapat terintegrasi pada CMS dengan baik.

2. Melihat apakah konten-konten yang dihasilkan memiliki keterkaitan dengan konten utama pada website.

3. Dan yang terakir melihat seberapa besar tingkat kemiripan konten- konten yang dihasilkan dari score yang dihasilkan setelah proses similarity.

BAB IV PEMBAHASAN

3.1 Perancangan Framework

Framework Modul Relevant Content digambarkan pada gambar 4.1 dan gambar 4.2. Garis besar framework digambarkan pada gambar 4.1 sedangkan gambar 4.2 menggambarkan proses similarity – mashup secara lebih detail. Dari gambar 4.1 dapat dilihat bahwa framework terdiri atas 4 bagian, yakni Similarity – Mashup, Database Internal, Internet , dan Web Page. Seperti yang telah dijelaskan sebelumnya bahwa framework bekerja dengan memanfaatkan dua data resource, yakni dari internal dan external sistem. Data dari internal digambarkan pada bagian Database Internal. Sedangkan data dari external digambarkan pada bagian Internet .

Data dari external (konten mashup) tersebut diperoleh dari berbagai website yang ada di internet. Pada tugas akhir ini akan digunakan salah satu dari Google API yakni Google Search API dalam memperoleh konten mashup. Berbagai konten yang diperoleh dengan mengunakan Google Search API berupa artikel, gambar, dan video. Berbagai konten tersebut diperoleh dengan mengirim query request berupa metadata (judul) dari konten utama. Metadata dari konten utama ini selanjutnya digunakan untuk melakukan pencarian pada Google Search Engine .

Data dari kedua data resources tersebut bersama dengan konten utama

selanjutnya diproses dengan mengunakan metode similarity – mashup untuk mendapatkan beberapa kandidat relevant content dengan nilai similarity tertinggi. Proses ini digambarkan pada bagian Similarity – Mashup. Setelah didapatkan beberapa kandidat relevant content dengan nilai similarity tertinggi selanjutnya kandidat relevant konten tersebut ditampilkan pada halaman web tepat disamping konten utama. Proses menampilkan kandidat relevant content ini digambarkan

Internet

Similarity - Mashup

Database

Internal

Web Page

Gambar 4. 1 Framework Modul Relevant Content

Teks Dokumen Bahasa Indonesia

Input Data

Case Folding

Tokenization

Stemming Filtering

Pembobotan tf-idf

VSM (Vector Space

Model)

Matching Document (Cosine Similarity)

Hasil Similarity

Document

Text Preprocessing

Pattern Discovery / Analysis

Hasil Similarity - Mashup

Text Transformation

Internet

Database Internal

Seperti yang telah dijelaskan sebelumnya bahwa framework memanfaatkan dua jenis data resources, yakni data dari internal dan external sistem. Kedua jenis data resources ini akan dihitung kemiripannya dengan konten utama melalui proses yang terdiri dari beberapa tahapan, yaitu tahap preprocessing, tahap transformation , dan tahap pattern discovery/analysis. Akan tetapi perhitungan nilai similarity ini tidak berlangsung secara bersamaan, untuk perhitungan nilai similarity antara konten utama dengan artikel internal dilakukan pada saat admin website melakukan perubahan pada data artikel. Sedangkan untuk perhitungan nilai similarity antara konten utama dengan gambar internal, video internal, banner internal , artikel external, gambar external, dan juga video external dilakukan pada saat halaman website dibuka. Perbedaan waktu perhitungan ini dilakukan agar perhitungan nilai similarity bisa lebih cepat.

Berikut keterangan lebih detail dari masing-masing tahapan dalam proses similarity - mashup:

3.1.1 Text Preprocessing

Seperti yang telah dijelaskan sebelumnya bahwa pada tahap preprosessing dilakukan proses case folding dan tokenization. Sebelum dilakukan proses ini terlebih dulu dilakukan proses penyaringan dengan menghilangkan berbagai tanda baca, berbagai karakter khusus dan berbagai tag html. Berbagai tanda baca dan karakter khusus tersebut seperti "?", "@", "#", "$", "%", "^", "*", "-", "_", "+", "=", dan lain-lain.

Setelah melewati dua proses tersebut barulah dilakukan proses pengubahan kata kedalam bentuk huruf kecil (case folding). Setelah melewati proses case folding selanjutnya dilakukan proses tokenization. Proses ini dilakukan dengan memisah dokumen menjadi kata dengan mengunakan spasi sebagai pemisah.

Seperti yang telah dijelaskan sebelumnya bahwa pada tahap text transformation ini dilakukan proses filtering dan stemming. Proses filtering dilakukan untuk menghilangkan stop-word yang mana daftar stop-word diperoleh

dari (Tala, 2003). Sedangkan untuk proses stemming yang bertujuan untuk mendapatkan kata dasar dilakukan dengan mengunakan algoritma stemming Nazief & Andriani. Pada tugas akhir ini kata dasar yang akan digunakan sebagai acuan

website bahtera

(http://www.bahtera.org). Bahtera merupakan kamus bahasa Indonesia yang menjadi rujukan sesuai Kamus Besar Bahasa Indonesia (KBBI). Dimana kata dasar tersebut terdiri dari 28.526 kata.

3.1.3 Pattern Discovery /Analysis

Pada tahap ini dilakukan representasi nilai numerik yaitu dengan melakukan pembentukan model ruang vektor dan pembobotan pada setiap kata dari setiap dokumen. Setelah selesai perhitungan bobot selanjutnya dilakukan proses perhitungan similarity dengan menggunakan metode Cosine Similarity seperti yang telah dijelaskan sebelumnya.

Perhitungan kemiripan antara konten utama dengan semua kandidat relevant content didasarkan pada kesamaan metadata konten. Dengan kata lain, pada penelitian ini metadata diibaratkan sebagai dokumen ketika proses perhitungan similarity. Tiap jenis konten memiliki metadata tersendiri dalam perhitungan similarity. Hal ini bertujuan untuk mendapatkan nilai similarity yang tinggi. Adapun metadata dari setiap jenis konten yang dipakai dalam menghitung kesamaan ditunjukkan pada tabel 4.1.

Tabel 4. 1 Metadata Kandidat Relevant Content Untuk Proses Similarity

No

Artikel utama

Internal resources

External resources

Artikel

Gambar Video Banner Artikel Gambar Video

judul, isi artikel, tag

judul, isi artikel, tag

kandidat relevant content akan disimpan dalam cache khusus. Masing-masing jenis relevant content memiliki batas waktu penyimpanan cache yang berbeda- beda, untuk relevant content yang berasal dari internal sistem akan disimpan selama 24 jam sedangkan untuk relevant content yang berasal dari external sistem akan disimpan selama 6 jam. Ketika batas waktu penyimpanan cache habis maka akan dilakukan perhitugan kembali nilai similarity antara konten utama dengan kandidat relevant content. Penyimpanan cache hasil relevant content ini dilakukan karena perhitungan similarity antara konten utama dengan kandidat relevant content dalam rentang waktu yang kecil sering kali menghasilkan relevant content yang sama sehingga dengan adanya penyimpanan cache diharapkan user dapat langsung melihat hasil relevant content tanpa perlu menunggu perhitungan nilai similarity . Selain itu dengan adanya pembatasan waktu dalam penyimpanan cache ini diharapkan dapat menjaga relevant content agar tetap dinamis.

Batas waktu penyimpanan cache tidak berlaku untuk artikel internal. Hal ini karena nilai similarity antara konten utama dengan artikel internal hanya akan berubah ketika admin website melakukan perubahan pada data artikel.

3.2 Pengumpulan Data

Data yang digunakan dalam penelitian ini berasal dari dua jenis data yakni dari internal dan external sistem.

3.2.1 Data Internal

Data dari internal sistem berupa 30 artikel, 100 gambar, 10 banner, dan 50 video yang diambil dari beberapa website di internet dan selanjutnya disimpan kedalam database sistem.

3.2.2 Data External

Data dari external sistem merupakan data yang secara langsung diambil dari berbagai website di internet ketika modul relevant content berjalan (mashup). Pada tugas akhir ini akan digunakan salah satu dari Google API yakni Google Search API dalam memperoleh konten mashup. Berbagai konten tersebut Data dari external sistem merupakan data yang secara langsung diambil dari berbagai website di internet ketika modul relevant content berjalan (mashup). Pada tugas akhir ini akan digunakan salah satu dari Google API yakni Google Search API dalam memperoleh konten mashup. Berbagai konten tersebut

Data yang dihasilkan Google Search API berupa data JSON. Data JSON hasil dari Google Search API mempunyai format khusus. Adapun format data JSON tersebut adalah sebagai berikut :