APLIKASI MENETUKAN KEMIRIPAN SITUS WEB P

APLIKASI MENETUKAN KEMIRIPAN SITUS WEB
PADA SISTEM TEMU BALIK INFORMASI
BERBASIS WEB MENGGUNAKAN METODE TERM
FREQUENCY INVERSE DOCUMENT FREQUENCY
(TF-IDF)
Heru Suryono (111080200160)1 , Arief Senja Fitroni S.Kom.2
1,2
Jurusan Teknik Informatika Universitas Muhammadiyah Sidoarjo.
1
[email protected], 2 [email protected].
ABSTRAK

Semakin meningkatnya kemajuan teknologi, maka banyak sekali pembuatan situs web oleh
mahasiswa. Sebuah situs web dapat dapat dengan mudah dikategorikan secara manual oleh manusia,
tetapi jika dilakukan secara terkomputerisasi akan membawa permasalahan tersendiri. Begitu pula
dengan mencari tingkat kemiripan suatu situs web dengan situs web lainnya, manusia dapat dengan
mudah menentukan apakah situs web tersebut memiliki tingkat kemiripan atau kemiripan dengan
situs web lainnya atau tidak, untuk itu pada penelitian ini akan dibuat sebuah sistem temu balik
informasi yang dapat menginputkan kata atau kalimat yang diinputkan pengguna ke dalam keyword
dan mencari tingkat kemiripan antar situs web secara terkomputerisasi.
Dalam penelitian ini yang digunakan untuk memecahkan masalah diatas adalah dengan

menggunakan algoritma TF-IDF (Term Frequency Inverse Document Frequency). TF-IDF (Term
Frequency Inverse Document Frequency) disini bertujuan untuk mencari nilai kemiripan suatu situs
web dengan situs web lainnya menggunakan kata kunci yang didapat dari hasil situs web yang sudah
ditentukan.
Hasil dari penelitian ini adalah didapatkan akurasi kemiripan sistem temu balik informasi (STBI)
situs web sebesar 90% dan tingkat perbedaan kemiripan sistem temu balik informasi (STBI) situs
web adalah sebesar 10%. Dengan penelitian ini diharapkan proses pencarian sistem temu balik
informasi (STBI) situs web secara terkomputerisasi, hasilnya dapat sesuai dengan perhitungan
manual.
Kata kunci : STBI, Kemiripan, Situs Web, TF-IDF.

ABSTRACT
1,2

Heru Suryono (111080200160)1 , Arief Senja Fitroni S.Kom.2
Informatics Engineering University Of Muhammadiyah Sidoarjo.
1
[email protected], 2 [email protected].

The increasing advances in technology, then a lot of website creation by students. A website can

be can be easily categorized manually by humans, but if it is done in computerized will bring its own
problems. Similarity, the degree of similarity search for a website to other websites, people can
easily determine whether the website has a level of similarity or likeness to any other website or not,
for it was in this study will be made of a system of information retrieval that can be input word /

phrase that the user entered into the keywords and the search for the degree of similarity between the
website are computerized.
In this study were used to solve the above problems is to use the algorithm TF-IDF (Term
Frequency Inverse Document Frequency). TF-IDF (Term Frequency Inverse Document Frequency)
here is to find the value of the similarity of a website with other websites using key words obtained
from the website that has been determined.
Result from this study is the semblanc of accuracy obtained information retrieval system (STBI)
website by 90% and the degree of similarity difference information rertieval system (STBI) website
is 10%. With this research is expected search process information retrieval system (STBI)
computerized website, the result can be in accordance with the manual calculation.

Keywords : STBI, Similarity, Website, TF-IDF
I. PENDAHULUAN
1.1 Latar Belakang Masalah


Situs web (website) atau kita biasa
menyebutnya dengan situs atau hanya
web saja merupakan kumpulan dari
beberapa halaman yang mempunyai
topik yang saling terkait yang
didalamnya terdapat unsur-unsur teks,
gambar, video, atau berkas lainnya yang
tersimpan dalam sebuah komputer server
yang dapat diakses melalui jaringan
internet. Setiap web memiliki alamat
unik yang disebut dengan URL
(Uniform Resource Locator). Kumpulan
dari semua situs web yang dapat diakses
melalui internet disebut sebagai WWW
(World Wide Web). Sering kali
ditemukan web yang memiliki beberapa
kemiripan.
Dari
pengelompokkan
tersebut

dapat
digunakan
untuk
membantu dalam pencarian informasi
halaman-halaman web yang terkait
dengan suatu topik tertentu, atau
mendeteksi adanya duplikasi halaman
web (plagiarism).
Situs web yang digunakan adalah
berdasarkan penulisan keyword yang
memungkinkan
untuk
dilakukan
identifikasi sejauh mana kemiripannya
dengan halaman web yang lain, dilihat
dari segi banyaknya kata atau kalimat
yang dituliskan di keyword. Keyword
adalah elemen atau tag html/xhtml yang
diciptakan sebagai penjelas isi dari


halaman web melalui beberapa kata atau
frasa /format bahasa permintaan yang di
input (dimasukan) oleh pengguna
kedalam STBI.
Sistem Temu Balik Informasi
(Information Retrieval) digunakan untuk
menemukan kembali informasi-informasi
yang
relevan
terhadap
kebutuhan
pengguna dari suatu kumpulan informasi
secara otomatis. Salah satu aplikasi umum
dari sistem temu kembali informasi adalah
situs web, search-engine atau mesin
pencarian yang terdapat pada jaringan
internet dan lain-lain. Pengguna dapat
mencari situs web yang dibutuhkannya
melalui mesin pencari dan dapat mencari
informasi tentang kemiripan dari beberapa

web tersebut.
Disini penulis akan mencoba
melakukan penelitian dengan menghitung
tingkat kemiripan antar halaman web.
Perbandingan dapat dilakukan dengan
mengacu
kepada
keywords
yang
diinputkan oleh pengguna. Dan untuk
permasalahan ini algoritma pemrograman
yang dapat digunakan adalah algoritma
pembobotan TF-IDF (Term Frequency
Inverse Document Frequency) untuk
perhitungannnya.
1.2 Perumusan Masalah

1. Bagaimana menerapkan algoritma
TF-IDF (Term Frequency Inverse
Document Frequency) agar dapat


menghitung kemiripan antar halaman
web?
2. Seberapa efektifkah algoritma TF-IDF
(Term Frequency Inverse Document
Frequency)
dalam
menentukan
kemiripan berdasarkan keywords?
3. Bagaimana cara mengembangkan
aplikasi menentukan kemiripan situs
web pada sistem temu balik informasi
berbasis web menggunakan metode
TF-IDF (Term Frequency Inverse
Document Frequency)?
1.3Batasan Masalah

1. Algoritma yang digunakan TF-IDF
(Term Frequency Inverse Document
Frequency) berdasarkan keywords.

2. Menggunakan metode perhitungan TFIDF
(Term
Frequency
Inverse
Document
Frequency)
untuk
pembobotan
lalu
menghitung
kemiripan web selanjutnya dilakukan
perangkingan.
3. Situs web yang dicari disini meliputi
Mekanik dan Kendaraan, Makanan dan
Minuman, Games, Internet dan
Telekomunikasi, Berita dan Media,
Perbelanjaan,
Keolahragaan,
Perjalanan, Seni dan Hiburan.
4. Pencarian situs web dapat dilakukan

secara offline.
1.4 Tujuan Penelitian
Adapun tujuan yang ingin dicapai melalui
penelitian ini adalah :

1. Untuk mengetahui cara untuk
menerapkan
algoritma
Term
Frequency
Inverse
Document
Frequency (TF-IDF) agar dapat
II. KAJIAN PUSTAKA DAN DASAR TEORI
2.1 Pengertian Sistem temu balik informasi

Sistem Temu Balik Informasi
(Information
Retrieval)
merupakan

sebuah media pelayanan bagi pengguna
yang digunakan untuk menemukan
kembali informasi-informasi yang relevan

menghitung kemiripan antar halaman
web.
2. Untuk mengetahui tingkat keefektifan
metode Term Frequency Inverse
Document Frequency (TF-IDF) dalam
mencari kemiripan web satu dengan
web yang lainnya.
3.Untuk
mengetahui
cara
mengembangkan aplikasi menentukan
kemiripan situs web pada sistem temu
balik
informasi
berbasis
web

menggunakan metode Term Frequency
Inverse Document Frequency (TFIDF).
1.5 Manfaat
Adapun
beberapa
manfaat
pengerjaanskripsi ini, antara lain :

dari

1. Bagi Mahasiswa
a) Diharapkan penyusunan skripsi ini
nantinya dapat dijadikan sebagai
bahan studi perbandingan serta
sebagai bahan pertimbangan untuk
penelitian
dan
pengembangan
selanjutnya.
2. Bagi Pengguna
a) Untuk mengetahui bagaimana dalam
menentukan
kemiripan
antar
halaman web, yang diinputkan
pengguna ke dalam sebuah keyword
yang nantinya akan didapatkan hasil
dari pencarian web tersebut.
3.Bagi
Universitas
Muhammadiyah
Sidoarjo
a) Sebagai sumbangsih dengan
kemampuan
agar
dapat
dipergunakan
dalam
rangka
pengelolaan hasil belajar siswa
khususnya bidang studi informatika.
terhadap kebutuhan pengguna dari suatu
kumpulan informasi secara otomatis.
Salah satu aplikasi umum dari sistem
temu kembali informasi adalah situs web,
search-engine atau mesin pencarian yang
terdapat pada jaringan internet dan lainlain. Pengguna dapat mencari halamanhalaman web yang dibutuhkannya melalui
mesin tersebut. Sedangkan pada situs web

pengguna dapat mencari informasi
tentang kemiripan antar halaman web.
Sistem
temu-kembali
informasi
memiliki
tujuan
untuk
menemukembalikan semua dokumen yang relevan
berdasarkan keyword yang dimasukan
oleh pengguna dan menemu-kembalikan
dokumen tidak relevan sedikit mungkin
(Baeza-Yates dan Ribeiro-Neto, 1999).
Menurut Lancaster (1968) di dalam
Rijsbergen (1979): “sebuah sistem temukembali informasi tidak memberitahu
(yakni tidak mengubah pengetahuan)
pengguna mengenai masalah yang
ditanyakannya. Sistem tersebut hanya
memberitahukan
keberadaan
(atau
ketidakberadaan)
dan
keterangan
dokumen-dokumen yang berhubungan
dengan permintaannya”.
2.1.1. Komponen sistem temu balik informasi
1. Pengguna
Pengguna sistem temu balik informasi
(STBI)
adalah
orang
yang
menggunakan atau memanfaatkan
STBI
dalam
rangka
kegiatan
pengelolaan dan pencarian informasi.
Berdasarkan perannya, pengguna STBI
(sistem
temu
balik
informasi)
dibedakakan atas 2 (dua) kelompok
yaitu pengguna (user) dan pengguna
akhir (end user).
2. Keyword
Keyword adalah format bahasa
permintaan yang di input (dimasukan)
oleh pengguna kedalam STBI (sistem
temu balik informasi).
3. Pembobotan Web
Perhitungan untuk pembobotan web
menggunakan persamaan 3, yaitu
menggunakan
Algoritma
TF-IDF
(Term Frequency Inverse Document
Frequency).
4. Retrieved Web
Web yang telah dihitung tingkat
kemiripannya, kemudian disajikan
kepada pengguna dalam bentuk
perankingan web.

III. METODOLOGI PENELITIAN
3.1. Lokasi Dan Waktu Penelitian

Penelitian untuk penulisan skripsi ini
dilakukan dengan browsing internet, yaitu
mencari
sumber
data
dari
internet.
Sebagaimana, data yang diambil oleh penulis
berkaitan dengan nama-nama situs web.
3.2.Bahan dan Alat Penelitian
Dalam melakukan penelitian, peneliti
menggunakan bahan dan alat penelitian
untuk pembuatan skripsi ini antara lain:
3.2.1. Bahan Penelitian
Bahan yang digunakan penulis
untuk memperlancar penelitian yaitu
berupa laporan penelitian terdahulu,
serta teori-teori yang diambil dari
browsing internet untuk menunjang
pembuatan aplikasi menentukan
kemiripan web
3.2.2. Alat penelitian
Alat yang digunakan peneliti dalam
melakukan penelitian ini meliputi :
a. Seperangkat komputer dengan
kecepatan 1.8 Ghz dengan
RAM 2 Gb.
b. Software
1. Sistem opersai windows 8.1
(64 bit)
2. Notepade ++
3. Web
browser
Google
Chrome
4. Xammp
5. Microsoft office visio 2007
6. Dreamweaver
3.3. Teknik Pengumpulan Data

Dalam usaha mencapai hasil yang
maksimal mungkin dan sesuai dengan
yang
peneliti
harapkan
dalam
pengumpulan data, sehingga peneliti
dapat dengan mudah menyusun skripsi
ini, maka peneliti menggunakan beberapa
metode pengumpulan data antara lain :
a. Browsing Internet
Yaitu dengan mencari sumber
data dari internet. Dengan maksud,
penulis ingin mengetahui lebih
mendalam nama-nama situs yang
ada di internet yang diperkirakan

mempunyai
kesamaan
antar
halaman webnya, agar hasil yang
di dapat bisa maksimal
b. Pengamatan(Observasi)
Pengamatan dilakukan pada
situs web langsung dengan maksud
untuk mengambil nama situs apa
saja yang nantinya bisa digunakan
menjadi data, kemudian setelah itu
baru dilakukan perhitungan.
IV.
HASIL
PEMBAHASAN

PENELITIAN

DAN

4.1 Hasil Dan Pembahasan Aplikasi

keywords STBI (Sistem Temu
Balik Informasi).
3. Menu Kontak kami berisi
informasi
tentang
profil
mahasiswa.
4. Master data berisikan CRUD
website dan Menampilkan data
website.
5. Serta menu logout untuk keluar
dari aplikasi Sistem temu balik
informasi website.
4.3.2 Interface utama sistem temu balik
informasi kemiripan website.

Untuk mencapai rancangan sistem
yang baik maka terlebih dahulu dilakukan
observasi dari analisa sistem temu balik
informasi dalam menetukan kemripan
website yang dicari pengguna/ user akan
dibuatkan tabel-tabel basis data sesuai
kebutuhannya, sehingga data tersebut
dapat diintegrasikan program yang dibuat.
4.2. Hasil Penelitian
Implementasi
merupakan
tahap
pengembangan rancangan menjadi sistem,
Sistem
ini
menggunakan
bahasa
pemrograman PHP.
4.3 Implementasi
Sesuai dengan rancangan sistem yang
telah dibuat maka implementasi dari
Website akan ditunjukkan melalui
tampilan sebagai berikut :
4.3.1 Tampilan Website STBI (sistem
temu balik informasi) kemiripan
situs web sebagai berikut:
Berikut penjelasan dari masingmasing menu yang terdapat di
halaman utama website :
1. Menu Home berisi gambar
tentang situs-situs web, serta
terdapat login dibawah gambar
yang nantinya digunakan admin
untuk masuk ke dalam aplikasi.
2. Menu
Pencarian
Website
digunakan untuk mengetahui
kemiripan
website,
yang
diinputkan pengguna ke dalam

Gambar 4.1 Interface Utama STBI
Gambar di atas menunjukakan menu
utama dari sistem sistem temu balik informasi.
Dan merupakan interface yang pertama kali
dilihat oleh user (pengguna). Dalam menu
utama ini terdapat beberapa bagian
diantaranya:
a. Header : judul program
b. Menu utama terdiri dari:
1. Home
2. Pencarian website
3. Kontak kami
4.3.3. Menu Login

Gambar 4.2. Menu Login

Menu ini berfungsi untuk login masuk
kedalam sistem sistem temu balik informasi
website. Untuk masuk kedalam proses
diperlukan tahapan –tahapan , diantaranya :

3. Tombol cari untuk mengetahui hasil
pencarian website berupa tabel yang
terdiri dari website dan nilai
kemiripan.

1. Input Username : dipergunakan
untuk memasukkan user name
2. Input passward : dipergunakan
untuk memasukkan password yang
sudah proses sebelumnya.
3. Setelah proses input username dan
password selesai, selnjutnya tombol
OK yang merupakan proses masuk
kedalam
sistem
temu
balik
informasi kemiripan website ini
akan berjalan.

4.3.4.1 Tampilan Hasil Perhitungan
TF-IDF

4.3.4 Menu Pencarian Website

Gambar 4.4 Tampilan Hasil Perhitungan TFIDF
Di dalam tampilan ini dijelaskan
bagaimana metode TF-IDF (Term
Frequency Inverse Document Frequency)
berjalan.
4.3.4.2 Tampilan Hasil Pencarian
Website

Gambar 4.3. Menu Pencarian Website
Menu ini berfungsi untuk proses
mengetahui kemiripan dari website yang
diinputkan pengguna ke dalam STBI
(sistem temu balik informasi) serta
menghitung
keywords
website
menggunakan metode TF-IDF (Term
Frequency Inverse Document Frequency).
Dalam proses ini dibutuhkan inputan dari
pengguna STBI berupa keywords yang
mendukung proses perhitungan kemiripan
website ini.
Didalam Sub – menu Pencarian
Website ini terdiri dari :
1. Header / judul utama
2. Area input, terdiri dari:
a. Keywords : digunakan unuk
memasukkan kata/ kalimat
yang diinputkan pengguna/
user kr dalam STBI (Sistem
Temu Balik Informasi).

Gambar 4.5 Tampilan Hasil Pencarian
Website
Di dalam tampilan hasil pencarian
website ini berupa tabel yang didalamnya
terdapat nama website dan nilai dari
kemiripan website.
4.3.5

Menu Kontak Kami

Gambar 4.6 Menu Kontak Kami

Dalam menu ini berisi keterangan
tentang profil pembuat program
seperti:
1.
2.
3.
4.

4.3.7

Menu Tampilan Data Website

Nama mahasiswa :
Alamat :
No Tlp :
Email :

Menu master data merupakan
menu yang memiliki data untuk
menunjang proses input dan hasil dari
sistem temu balik informasi website
yang
diinputkan
admin
dan
menyimpannya ke dalam database.
Master data terdiri dari beberapa submaster data yang harus di update dan
delete sesuai dengan program STBI
kemiripan website yang nantinya
dijalankan.
Adapun Sub-master data ini
terdiri dari :
1. CRUD (Create, Update,
Delete) Website
2. Tampilkan Website
4.3.6 Menu tambah website

Gambar 4.7 Menu Tambah Website
Menu
tambah
website
ini,
merupakan tampilan untuk menambah
data website yang nantinya akan
disimpan ke dalam database.

Gambar 4.8 Menu tampilan data website
Menu
Ini
berfungsi
untuk
menampilkan hasil yang ditambahkan
oleh admin, serta terdapat edit dan hapus
yang ada pada table.
V. Kesimpulan

Kesimpulan yang diperoleh dengan
adanya Aplikasi Menetukan Kemiripan
Situs Web Pada Sistem Temu Balik
Informasi Berbasis Web Menggunakan
Metode TF-IDF (Term Frequency Inverse
Document Frequency) diharapkan dapat
mempermudah
dan
mempercepat
pengguna/ user dalam mengetahui
kemiripan website yang dicari dengan
menggunakan aplikasi sistem temu balik
informasi website.
1. Pengetahuan yang dimiliki pengguna
mengenai sistem temu balik informasi
website yang digunakan pada aplikasi
ini.
2. Dalam Aplikasi ini menggunakan
metode TF-IDF (Term Frequency
Inverse Document Frequency).
3. Aplikasi
ini
dapat
membantu
pengguna
untuk
mengetahui
kemiripan website satu dengan
website yang lainnya.
4. Aplikasi yang digunakan berbasis
web.

DAFTAR PUSTAKA
Referensi Buku dan Jurnal :

[1]

[2]

[3]

Andi,

2011 Kupas Tuntas Adobe
Dreamweaver CS5 Dengan
Pemrograman PHP & MYSQL.

Abdul Kadir, 2003, Pemrograman WEB
Mencakup:
HTML,
CSS,
JavaScript & PHP, Penerbit
Andi, Yogyakarta.
Adhit

Herwansyah,
Aplikasi
Pengkategorian Dokumen Dan
Pengukuran Tingkat Similaritas
Dokumen Menggunakan Kata
Kunci
Pada
Dokumen
Penulisan Ilmiah Universitas
Gunadarma,
Universitas
Gunadarma.

[4] Ari Wibowo, Pengujian Kerelevanan
Sistem
Temu
Kembali
Informasi,
Universitas
Politeknik Negeri Batam.
[5]

Baeza-Yates & Ribeiro-Neto, 1999,
Modern Information Retrieval,
Harlow, Addison-Wesley.

[6] Edhy Sunanta, Edisi pertama 2004, Sistem
Basis Data, Penerbit Graha
Ilmu, Yogjakarta.
[7] Fatkhul Amin, 2011 Implementasi Search
Engine
(Mesin
Pencari)
Menggunakan Metode Vector
Space
Model,
Universitas
Stikubank Semarang.
[8] Firnas Nadirman, 2006 Sistem Temu
Kembali Informasi Metode
Vector Space Model Pada
Pencarian
File
Dokumen
Berbasis Teks, Universitas
Gadjah Mada.
[9] Giat Karyono 2012, Temu Balik Informasi
Dokumen Teks Berbahasa
Indonesia Dengan Metode

Vector Space Retrieval Model,
Universitas STMIK AMIKOM
Purwokerto.
[10] Jonner Hasugian, 2006 Penggunaan
Bahasa Alamiah dan Kosa Kata
Terkendali Dalam Sistem Temu
Balik Informasi Berbasis Teks,
Universitas Sumatera Utara.
[11] Ardhina Pratiwi, 2013 Temu Kembali
Informasi Pada Opac Di Unit
Perpustakaan
Fakultas
Kedokteran Universitas Gadjah
Mada
Berbasis
Intranet,
Universitas Islam Negeri Sunan
Kalijaga Yogyakarta.