Simulasi Deteksi Otomatis Spam Email Berkonten Pornografi

SPAM EMAIL BERKONTEN PORNOGRAFI

SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu Jurusan Informatika

Disusun Oleh: Retisa Heryati Siwi

NIM. M0507036

JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA

SPAM EMAIL BERKONTEN PORNOGRAFI

SKRIPSI Diajukan untuk Memenuhi Salah Satu Syarat Mencapai Gelar Strata Satu

Jurusan Informatika

Disusun Oleh: Retisa Heryati Siwi

NIM. M0507036

JURUSAN INFORMATIKA FAKULTAS MATEMATIKA DAN ILMU PENGETAHUAN ALAM UNIVERSITAS SEBELAS MARET SURAKARTA

2012

( Martin Luther King, Jr)

"Be the Best of Whatever You Are" (Douglas Malloch)

bout process not result. Just give your best on your journey, do your best

(Penulis)

Bismillahirrahmaanirrahiim

senantiasa memberikan nikmat dan karunia-Nya sehingga penulis dapat menyelesaikan skripsi dengan judul Simulasi Deteksi Otomatis Spam Email Berkonten Pornografi , yang menjadi salah satu syarat wajib untuk memperoleh gelar Sarjana Informatika di Universitas Sebelas Maret (UNS) Surakarta.

Penulis menyadari akan keterbatasan yang dimiliki, begitu banyak bimbingan, bantuan, serta motivasi yang diberikan dalam proses penyusunan skripsi ini. Oleh karena itu, ucapan terima kasih penulis sampaikan kepada :

1. Ibu Dewi Wisnu Wardani, S. Kom, M. S., Dosen Pembimbing I yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini,

2. Bapak Wisnu Widiarto, S.Si, M. Kom., Dosen Pembimbing II yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini,

3. Ibu Umi Salamah, S.Si., M.Kom., ketua Jurusan Informatika FMIPA UNS yang penuh kesabaran membimbing, mengarahkan, dan memberi motivasi kepada penulis selama proses penyusunan skripsi ini,

4. Bapak Drs. YS. Palgunadi, M.Sc., Pembimbing Akademik yang telah banyak memberi bimbingan dan pengarahan selama penulis menempuh studi di Jurusan Informatika FMIPA UNS,

5. Bapak dan Ibu dosen serta karyawan di Jurusan Informatika FMIPA UNS yang telah mengajar penulis selama masa studi dan membantu dalam proses penyusunan skripsi ini.

6. Ayah, ibu, dan kakakku tercinta yang tidak henti-hentinya mendukung serta mendoakan yang terbaik bagi penulis,

7. Para sahabatku di Informatika UNS khususnya MargaNdud ( Mbak Vihi, Hanum, dan Sayekti ) serta Lyla, Weka

Informatika UNS ini Alka yang selama ini berjuang bersama, juga untuk sahabatku Fitria dan Dyah yang selalu menjadi pendengar semua keluhanku.

8. Semua pihak yang turut terlibat baik secara langsung maupun tidak langsung dalam penulisan tugas akhir ini yang tidak dapat disebutkan satu persatu, terimakasih banyak atas semua bantuan, doa, serta dukungannya.

Semoga Allah SWT membalas jerih payah dan pengorbanan yang telah diberikan dengan balasan yang lebih baik. Dan semoga skripsi ini dapat memeberikan manfaat bagi pembaca umumnya dan mahasiswa Informatika pada khususnya.

Surakarta, November 2012 Penulis

SPAM EMAIL BERKONTEN PORNOGRAFI RETISA HERYATI SIWI

Jurusan Informatika. Fakultas Matematika dan Ilmu Pengetahuan Alam. Universitas Sebelas Maret ABSTRAK

Spam atau junk email adalah penyalahgunaan dalam pengiriman berita elektronik yang mengandung banyak hal yang mengakibatkan ketidaknyamanan bagi para pengguna web. Salah satu konten spam yang sangat meresahkan adalah pornografi. Penelitian mengenai spam telah dilaukan dengan berbagai metode, antara lain degan metode pendekatan Bayesian, metode penggabungan classifier, metode pendataan statistik url spam, dan lain sebagainya. Metode yang dikembangkan dalam pembangunan program simulasi ini cukup sederhana . Metode yang digunakan dalam pembangunan program simulasi ini adalah dengan menggunakan prinsip information retrieval untuk mengambil metadata keywords dari url. Jaccard Similarity digunakan untuk menghitung kemiripan antara metadata keywords dengan keywords porno yang sudah ada di dalam database. Hasil yang diperoleh adalah sebuah program yang dapat digunakan untuk mensimulasikan proses pendeteksian spam email porno di dalam email server. Dari hasil pengujian hasil didapatkan tingkat keakuratan pendeteksian untuk url yang sudah terdapat di dalam database mencapai 100%, sedangkan tingkat keakuratan untuk url yang belum terdapat di dalam database mencapai 91.4%. Sementara itu dari hasil pengujian runtime didapatkan rata-rata runtime pendeteksian untuk url yang sudah terdapat di dalam database adalah 0.15 detik, sedangkan rata-rata runtime untuk url yang belum terdapat di dalam database adalah 5.15 detik.

Kata Kunci: deteksi pornografi, metadata, Jaccard Similarity, penyaringan email, url porno.

OF PORNOGRAPHIC-CONTAINED SPAM EMAIL RETISA HERYATI SIWI

Department of Informatics. Mathematics and Science Faculty. Sebelas Maret University ABSTRACT

Spam or junk e-mail is abuse in the electronic delivery of news which contained many things that lead to discomfort for the web user. A very disturbing content of spam is pornographic. Research on spam have taken place with a variety of methods, including Bayesian approach method, join of classifier method, collection of url spam statistical data method, and so forth. The method which was developed in the construction of this simulation program was quite simple. Method which was used in the construction of the simulation program used the principle of information retrieval to retrieve

metadata

keywords. Using Jaccard Similarity to calculate similarity between metadata keywords with porn keywords which have already existed in the database. Obtained- result was a program that could be used to simulate the porn email spam detection in email server. From the experimental results, the accuracy of detection for the urls which have already existed in the database reaches 100%, while the level of accuracy for a urls which haven't been existed in the database reaches 91.4%. Meanwhile, from the runtime experimental obtained the average runtime for urls which have been existed in the database was 0.15 seconds, while the average runtime for the urls that haven't been existed in the database was 5.15 seconds.

Keywords: email filtering, metadata, Jaccard Similarity, porn detection, porn url.

Tabel 4.1 Tabel Lingkungan Pengujian Pendeteksian Email ................................ 28 Tabel 4.2 Tabel Dataset Pengujian ........................................................................ 29 Tabel 4.3 Tabel Pengujian Hasil Pendeteksian Email dengan Url Terdapat Di

dalam Database ................................................................................... 30

Tabel 4.4 Tabel Pengujian Hasil Pendeteksian Email dengan Url Tidak Terdapat

Di dalam Database .............................................................................. 31

Tabel 4.5 Tabel Pengujian Hasil Pendeteksian Email dengan Multiple Url .......... 33 Tabel 4.6 Tabel Pengujian Runtime dengan Url Terdapat Di dalam Database ..... 36 Tabel 4.7 Tabel Pengujian Runtime dengan Url Tidak Terdapat Di dalam

Database .............................................................................................. 37

Tabel 4.8 Tabel Pengujian Runtime dengan Multiple Url .................................... 39

Gambar 2.1. Arsitektur Email (Novasandro, 2009) ................................................ 7 Gambar 4.1. Arsitektur Simulasi Pendeteksian Email ........................................... 23 Gambar 4.2. Flowchart Pendektesian Email ......................................................... 25 Gambar 4.3. Grafik Tingkat Akurasi Pendeteksian Email..................................... 35 Gambar 4.4. Grafik Rata-rata Runtime .................................................................. 42

LAMPIRAN 1. Hasil Implementasi ...................................................................... 48 LAMPIRAN 2. Contoh Spam Email Berkonten Pornografi.................................. 62

PENDAHULUAN

1.1 Latar Belakang

Spam, juga disebut sebagai unsolicited commercial email atau unsolicited bulk email telah menyebabkan beberapa masalah komunikasi dalam kehidupan sehari-hari kita. Kerugian yang disebabkan karena spam antara lain spam menempati sumber daya yang besar (termasuk bandwidth jaringan, ruang penyimpanan, dll), membuang-buang waktu pengguna untuk menghapus spam dari kotak masuk, dan berbiaya banyak karena menyebaban berkurangnya produktivitas (Zhu, 2011). Spam atau junk email adalah penyalahgunaan dalam pengiriman berita elektronik untuk menampilkan berita, iklan, dan keperluan lainnya yang mengakibatkan ketidaknyamanan bagi para pengguna web (Rahardjo, 2006). Sifat-sifat utama spam antara lain isi atau konten dari email tidak relevan dengan minat penerima dan penerima tidak dapat menolak datangnya email yang tidak diminta tersebut dengan cara-cara lazim (Lambert, 2003). Seperti disebutkan sebelumnya, isi atau konten dari spam ini bermacam- macam, seperti iklan, berita, dan lain sebagainya. Salah satu isi spam yang sangat meresahkan adalah pornografi.

Spam dalam simulasi pendeteksian email ini adalah semua email yang mengandung url porno. Jadi, walaupun email tersebut merupakan legitimate email atau email yang berasal dari sumber yang jelas tetap akan dideteksi sebagai spam jika di dalam email tersebut mengandung url porno. Setelah proses pendeteksian, email akan dikategorian menjadi 2 yaitu email aman dan email porno.

Salah satu penelitian mengenai spam email adalah penelitian yang dilakukan oleh Sahami et al. (1998). Dalam penelitian ini metode yang digunakan adalah mempelajari secara otomatis pola spam email, sehingga menciptakan sebuah pola baku yang kemudian dijadikan pedoman untuk mengenali spam email yang lain. Metode ini menggunakan pendekatan Bayesian . Tetapi metode ini masih memiliki kelemahan, seperti yang dikemukakan oleh Androutsopoulos et al. (2000), yaitu meskipun memiliki spam recall dan presisi yang tinggi, Naive Salah satu penelitian mengenai spam email adalah penelitian yang dilakukan oleh Sahami et al. (1998). Dalam penelitian ini metode yang digunakan adalah mempelajari secara otomatis pola spam email, sehingga menciptakan sebuah pola baku yang kemudian dijadikan pedoman untuk mengenali spam email yang lain. Metode ini menggunakan pendekatan Bayesian . Tetapi metode ini masih memiliki kelemahan, seperti yang dikemukakan oleh Androutsopoulos et al. (2000), yaitu meskipun memiliki spam recall dan presisi yang tinggi, Naive

Selanjutnya Kim et al. (2005) menyajikan teknik pendeteksian spam mail yang unik berbasis pada analisis mendalam statistik url yang dicantumkan dalam berbagai email yang dikumpulkan dari sebuah laboratorium di sebuah universitas selama sekitar enam bulan, kemudian memasukkan url-url tersebut dalam sebuah daftar hitam, sehingga waktu pendeteksian spam email berkurang secara signifikan. Selain itu, diusulkan teknik pendeteksian dengan pembaruan daftar url secara dinamis melalui umpan balik klien, sehingga kesalahan yang ditemukan dalam metode pendeteksian ini dapat dihilangkan.

Selain itu terdapat juga penelitian mengenai pengklasifikasian email, salah satunya Manco et al. (2002). Penelitian ini memperkenalkan teknik berbasis algoritma data mining untuk mengklasifikasi pesan masuk, sebagai dasar untuk pemeliharaan dan pengelolaan pesan email. Penelitian ini memanfaatkan teknik clustering untuk pengelompokan informasi terstruktur dan tidak terstruktur yang diekstrak dari pesan email. Beberapa hasil percobaan awal menunjukkan efektifitas metode ini, baik dari segi efisiensi maupun dari sudut pandang kualitas hasil .

Metode yang digunakan dalam pembangunan program simulasi ini adalah dengan menggunakan prinsip information retrieval untuk mengambil metadata keywords dari url. Jaccard Similarity digunakan untuk menghitung kemiripan antara metadata keywords dengan keywords porno yang sudah ada di dalam database .

Rumusan masalah dari latar belakang masalah yang telah diuraikan diatas adalah bagaimana memanfatkan information retrieval untuk mensimulasikan penyaringan email sehingga dapat digunakan untuk mengetahui apakah email tersebut mengandung konten pornografi.

1.3 Batasan Masalah

Batasan masalah dari penelitian ini adalah sebagai berikut :

1. Pengujian yang dilakukan hanya berupa simulasi dan bukan diuji pada email server yang sebenarnya

2. Diasumsikan email berbentuk text file (.txt).

3. Diasumsikan semua url diawali dengan http:// atau https:// atau ftp:// atau ftps://.

4. Simulasi pendeteksian email berkonten pornografi ini hanya menggunakan text mining dan tidak mendeteksi gambar ataupun media yang lain.

1.4 Tujuan dan Manfaat Penelitian

1.4.1 Tujuan Penelitian

Tujuan dari penelitian ini adalah memanfatkan information retrieval untuk mensimulasikan penyaringan email di dalam email server yang dapat digunakan untuk menyaring dan mengelompokkan email yang mengandung konten pornografi.

1.4.2 Manfaat Penelitian

Manfaat dari penelitian ini diharapkan dapat meminimalisir penyebaran pornografi melalui media email.

Sistematika penulisan laporan tugas akhir ini adalah sebagai berikut: BAB I PENDAHULUAN Bab pendahuluan memuat tentang latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan laporan tugas akhir. BAB II TINJAUAN PUSTAKA

Bab tinjauan pustaka menguraikan dasar teori yang mendasari pembahasan secara detail, penelitian terkait yang pernah dilakukan serta rencana penelitian yang akan dilakukan dalam tugas akhir. BAB III METODE PENELITIAN

Bab metode penelitian menguraikan tentang gambaran objek penelitian, serta gambaran langkah-langkah yang dilakukan oleh penulis untuk melaksanakan dan menyelesaikan penelitian ini. BAB IV PEMBAHASAN

Bab pembahasan memaparkan hasil-hasil dari tahapan penelitian, yaitu tahap analisis dan implementasi serta hasil pengujian berupa penjelasan teoritik, baik secara kualitatif, kuantitatif, atau secara statistik. BAB V PENUTUP

Bab ini berisi kesimpulan dan saran. Kesimpulan berisi rumusan jawaban terhadap pertanyaan (perumusan masalah) dengan bukti-bukti yang ada dan telah dilakukan dalam penelitian ini. Saran merupakan sesuatu yang belum ditempuh dan layak untuk dilaksanakan pada penelitian selanjutnya.

LANDASAN TEO RI

2.1 Dasar Teo ri

2.1.1 Email

Surat elektronik yang biasa disingkat surat-e atau yang biasanya di sebut email adalah sarana kirim mengirim surat melalui jalur internet. Email merupakan salah satu layanan internet yang paling banyak digunakan, serta merupakan media komunikasi yang murah, cepat, dan mudah penggunaannya. (Jatmika, 2010)

Elektronik mail atau biasa disingkat sebagai email, merupakan sebuah metode untuk mengirimkan pesan dalam bentuk digital. Pesan ini biasanya dikirimkan melalui medium internet. Sebuah pesan elektronis terdiri dari isi, alamat pengirim, dan alamat-alamat yang dituju. (Novasandro, 2009)

2.1.2. Spam

Spam, juga disebut sebagai unsolicited commercial email atau unsolicited bulk email telah menyebabkan beberapa masalah komunikasi dalam kehidupan sehari-hari kita. Kerugian yang disebabkan karena spam antara lain spam menempati sumber daya yang besar (termasuk bandwidth jaringan, ruang penyimpanan, dll), membuang-buang waktu pengguna untuk menghapus spam dari kotak masuk, dan berbiaya banyak karena menyebabkan berkurangnya produktivitas . (Zhu et al., 2011)

Spam atau junk email adalah penyalahgunaan dalam pengiriman berita elektronik untuk menampilkan berita, iklan, dan keperluan lainnya yang mengakibatkan ketidaknyamanan bagi para pengguna web. Spam adalah unsolicited email yang dikirim ke banyak orang. (Raharjo, 2006)

Sifat-sifat spam antara lain:

1. Isi atau konten dari email tidak relevan dengan minat penerima.

2. Penerima tidak dapat menolak datangnya email yang tidak diminta tersebut dengan cara-cara lazim.

bagi pengirimnya. (Lambert, 2003) Spam dapat dikategorikan sebagai berikut:

1. Junk mail, yaitu email yang dikirimkan secara besar-besaran dari suatu perusahaan atau prseorangan yang sifatnya tidak diinginkan.

2. Non-comercial spam, misalnya surat berantai atau cerita humor yang dikirimkan secara massal tanpa tujuan komersial tertentu.

3. Pornographic spam, yaitu email yang dikirimkan secara massal untuk mengirimkan konten-konten pornografi.

4. Virus spam, yaitu email yang dikirimkan secara massal dan mengandung virus atau Trojans.(Jatmika, 2010)

2.1.3 Email Server

Sistem email yang beroperasi di atas jaringan berbasis pada model store and forward . Sistem ini mengaplikasikan sebuah sistem server email yang menerima, meneruskan, mengirimkan, serta menyimpan pesan-pesan user, dimana user hanya perlu untuk mengkoneksikan pc mereka ke dalam jaringan. Email dapat dianalogikan dengan kotak surat yang ada di kantor POS sedangkan server email dapat diibaratkan sebagai kantor POS. Dengan analogi ini sebuah mail server dapat memiliki banyak account email yang ada didalamnya. Penulisan email dan e-mail sama saja. Namun lebih direkomendasikan untuk menuliskannya sebagai email. Pada RFC, spelling email yang digunakan adalah mail, dan sebuah email dinamakan sebagai sebuah message. RFC yang baru dan grup IETF membutuhkan penulisan email yang konsisten dari segi kapitalisasinya, penggunan underscorenya, serta ejaannya. Untuk mengirim sebuah email dari alamat email yang satu ke alamat email yang lain digunakan sebauh protocol (aturan) yaitu Simple Mail Transfer Protocol SMTP. Protocol SMTP telah menjadi aturan dasar yang disepakati untuk pengiriman email. Dengan demikian semua software email server pasti mendukung protokol ini.

SMTP merupakan protokol yang digunakan untuk megirim email (komunikasi antar mail server), dan tidak digunakan untuk berkomunikasi dengan

Supaya sebuah mail server dapat di akses oleh klien, dikembangkan sebuah aplikasi dimana klien dapat mengakses email dari sebuah email server. IMAP adalah sebuah aplikasi pada layer Internet protokol yang memungkinkan klien untuk mengakses email yang ada di server. Selain IMAP ada juga POP3 yang fungsinya sama dengan imap, akan tetapi memiliki karakteristik yang berbeda dalam cara pengaksesan pada server. (Novasandro, 2009)

Gambar 2.1. Arsitektur Email (Novasandro, 2009)

2.1.3.1 SMTP (Simple Mail Transfer Protocol)

Simple Mail Transfer Protocol adalah protokol standar untuk pengiriman electronic mail (email) di internet. SMTP adalah protokol yang cukup sederhana, berbasis teks dimana protokol ini menyebutkan satu atau lebih penerima email untuk kemudian diverifikasi. Jika penerima email valid, maka email akan segera dikirim. SMTP menggunakan port 25 dan dapat dihubungi melalui program telnet. Agar dapat menggunakan SMTP server lewat nama domain, maka record DNS (Domain Name Server) pada bagian MX (Mail Exchanger) digunakan. Sendmail adalah Mail Transfer Agent pertama yang mengimplementasikan port 25.

INTERNET

mengimplementasikan SMTP baik sebagai klien maupun sebagai server. Contoh

Mail Transfer Agent yang populer adalah: Exim, IBM Postfix, Qmail .(Novasandro, 2009) Karena protokol SMTP berawal dari protokol yang benar-benar berbasis teks ASCII, maka SMTP tidak bekerja terlalu baik dalam mengirimkan file-file binary. Standar untuk mengencode file-file biner agar dapat dikirimkan lewat SMTP dikembangkan dan menelurkan standar-standar seperti MIME (Multipurposes Internet Mail Extensions) . Saat ini, hampir semua SMTP server mendukung 8 BIT MIME, yang dapat mengirimkan file-file biner semudah mengirimkan file teks. SMTP hanya protokol yang melakukan push, artinya dia hanya bisa mengambil email dari klien tetapi tidak bisa melakukan pull, yaitu melayani pengambilan email di server oleh klien. Pengambilan pesan atau email tersebut dilakukan dengan menggunakan protocol tersendiri yaitu protokop POP3 (Post Office Protokol) atau IMAP (Internet Message Access Protocol). (Novasandro, 2009)

MIME adalah format standar internet untuk email. MIME mendefinisikan pengiriman pesan selain 8 bit karakter ASCII dengan file yang berisi gambar, suara, movie, dan program komputer. MIME adalah salah satu komponen dasar pendukung protokol HTTP. (Novasandro, 2009)

2.1.3.2 POP (Post Office Protocol)

POP atau Post Office Protocol, sesuai dengan namanya merupakan protokol yang digunakan untuk pengelolaan mail. POP yang sekarang lebih umum dikenal dengan POP3 (POP - Version 3), dimaksudkan untuk mengizinkan klien untuk mengakses secara dinamis mail yang masih ada di POP3 server. POP3 menawarkan pada user untuk meninggalkan mail-nya di POP3 server, dan mengambil mail-nya tersebut dari sejumlah sistem sembarang.

Untuk mengambil mail dengan menggunakan POP3 dari suatu klien, banyak pilihan yang dapat digunakan seperti Sun Microsystem Inc.'s

Microsoft Corp.'s Outlook Express. POP3 tidak dimaksudkan untuk menyediakan operasi manipulasi mail yang ada di server secara luas. Pada POP3, mail diambil dari server dan kemudian dihapus (bisa juga tidak dihapus).

Ada dua jenis mode pada POP3 yaitu mode offline dan mode inline. Pada mode offline, POP3 mengambil dan kemudian menghapus mail yang tersimpan dari server. POP3 bekerja dengan baik pada mode ini, karena terutama memang didesain untuk berlaku sebagai sebuah sistem mail yang memiliki sifat store and forward . Server, pada mode offline, berlaku seperti sebuah tempat penampungan yang menyimpan mail sampai user memintanya. Pada mode inline, POP3 akan mengambil mail dari server tanpa menghapus mail yang sudah diambil tersebut. Mode ini lebih disukai oleh user yang sering berpindah tempat (nomadic user) karena memungkinkan mereka untuk melihat mail yang sama dari tempat atau komputer yang berbeda. Akan tetapi untuk nomadic user yang selalu bekerja dan bepergian dengan selalu membawa notebook, dan tetap menginginkan agar mail miliknya yang ada di server tidak dihapus, tentu saja menginginkan agar setiap kali mengambil mail tidak semua mail yang akan terambil, tapi hanya mail yang belum pernah dia lihat saja yang akan diambil. Keinginan user seperti ini dapat dipenuhi dengan menggunakan informasi pada klien yang memungkinkan untuk memberi tanda mail yang sudah pernah dilihat. Setiap klien layanan POP3 yang mendukung mode inline akan menyimpan informasi ini dalam sebuah file. Pada user yang menggunakan Netscape Mail, file yang menyimpan informasi ini adalah file popstate.dat, yang biasanya terdapat di /Program Files/Netscape/Users/Mail. File tersebut memberi tahu mail yang mana saja yang sudah diambil sehingga tidak perlu diambil lagi. Jika file ini dihapus maka tentu saja pada pengambilan mail berikutnya semua mail akan terambil. (Novasandro dkk, 2009)

2.1.3.3 IMAP (Internet Message Access Protocol)

IMAP adalah salah satu dari dua standar internet untuk protokol email. Hampir semua arsitektur email klien dan server modern mendukung kedua IMAP adalah salah satu dari dua standar internet untuk protokol email. Hampir semua arsitektur email klien dan server modern mendukung kedua

IMAP memiliki berbagai keunggulan bila dibandingkan dengan POP3 antara lain: Memiliki 2 mode operasi : Connected dan Disconnected Banyak pengguna dapat tersambungkan dengan sebuah mailbox yang sama

secara simultan Informasi berisikan status pesan Banyak mailboxes di dalam server Pencarian di bagian server

Namun, IMAP juga memiliki beberapa kekurangan. Tingkat kompleksitas akan bertambah ketika menggunakan IMAP. Misalnya, beberapa klien mengakses kotak surat yang sama pada saat yang sama perlu dilakukan untuk meng- kompensasikan server-side workarounds seperti Maildir atau database backends. (Novasandro dkk, 2009)

2.1.3.4 Mail User Agent

Definisi MUA (Mail User Agent) menurut FOLDOC adalah sebuah program atau aplikasi yang digunakan oleh seorang pengguna komputer untuk menulis atau membuat suatu email serta digunakan untuk membacanya . MUA merupakan penghubung antara pengguna dan MTA. (Afriansyah, 2011)

MUA (Mail User Agent ) merupakan program yang digunakan oleh user untuk membaca dan membuat email. Setelah email dibuat, email dikirimkan ke tujuan oleh sebuah Mail Transport Agent (MTA). Selain itu banyak juga beberapa MUA yang memungkinkan mendownload email melalui protokol POP atau IMAP. MUA yang umum digunakan antara lain dapat dilihat dari daftar berikut ini : UNIX: elm, mail, mailtool, mush, mutt dll, MS Windows: Eudora, Microsoft Outlook Express, Netscape Mail.

Sebuah pengiriman email agen atau agen pengiriman pesan (MDA) adalah sebuah perangkat lunak komputer komponen yang bertanggung jawab untuk pengiriman pesan e-mail ke kotak surat penerima lokal. Dalam arsitektur Internet mail, pengiriman pesan lokal dicapai melalui proses penanganan pesan dari agen transfer pesan, dan menyimpan surat ke lingkungan penerima (biasanya kotak surat). (Afriansyah, 2011)

MDA (Mail Delivery Agent ) bekerja sama dengan MTA untuk menangani pesan - pesan email yang datang untuk diletakkan sesuai pada mailbox user masing - masing. Didalam beberapa kasus, MDA sebenarnya yaitu sebuah Local Delivery Agent ( LDA ) seperti mail atau procmail.

2.1.3.6 Mail Transfer Agent

Menurut FOLDOC (Free Online Dictionary of Computing) definisi dari MTA (Message Transfer Agent) adalah suatu program yang bertanggung jawab dalam hal pengiriman sebuah email ke suatu tujuan alamat . Program ini biasanya akan menjadi sebuah daemon dan membuka koneksi pada port 25 (SMTP) yang digunakan sebagai penghubung antar MTA. (Afransyah, 2011)

MTA (Mail Transfer Agent ) yaitu mengirimkan atau mentransfer email antar komputer dengan menggunakan SMTP. Sebuah pesan email mungkin saja sebelum sampai ketujuan melewati beberapa SMTP server lainnya. Contoh aplikasi MTA yaitu : sendmail, postfix, dan lain lain.

2.1.3.7 DNS Server

Dalam layanan email server, DNS berperan sebagai penunjuk jalan routing suatu email. Apabila terdapat suatu email maka server DNS akan mengecek nama domain yang terdapat pada alamat tujuan. Berdasarkan domain tujuan tersebut maka server DNS menunjukkan informasi mail exchanger (MX) record suatu domain. Selanjutnya pesan akan diteruskan ke host tujuan berdasarkan nama host yang terdapat dalam MX record, dimana host tersebut adalah server SMTP dari Dalam layanan email server, DNS berperan sebagai penunjuk jalan routing suatu email. Apabila terdapat suatu email maka server DNS akan mengecek nama domain yang terdapat pada alamat tujuan. Berdasarkan domain tujuan tersebut maka server DNS menunjukkan informasi mail exchanger (MX) record suatu domain. Selanjutnya pesan akan diteruskan ke host tujuan berdasarkan nama host yang terdapat dalam MX record, dimana host tersebut adalah server SMTP dari

2.1.4 Email Filtering

Email fitering adalah suatu proses yang otomatis akan mendeteksi sebuah email apakah termasuk legitimate email atau bukan. Beberapa metode yang digunakan untuk email filtering antara lain Keyword filtering, Black listing and White listing, Signature-based filtering, Naïve Bayesian filtering .

Beberapa karakteristik dari email filtering adalah:

1. Binary Class Email filtering hanya mengklasifikasi email ke dalam kelas legitimate email atau bukan.

2. Prediksi Email filtering mampu melakukan prediksi kelas dari suatu email.

3. Komputasi mudah Mengingat sifat data email yang memiliki dimensi tinggi, maka dibutuhkan sebuah email filter yang mampu melakukan komputasi dengan mudah.

4. Learning Mampu melakukan learning dari email-email yang sudah ada sebelumnya.

5. Kinerja yang bagus Memiliki akurasi yang tinggi, meminimalkan nilai false positive da mentolelir nilai false negative yang cukup tinggi. (Jatmika, 2010)

2.1.5 Information Retrieval

Information retrieval atau sistem temu kembali informasi berkaitan dengan representasi, penyimpanan, pengorganisasian, dan pengaksesan informasi. Sistem temu kembali informasi berbeda dengan sistem temu kembali data dalam beberapa segi, antara lain spesifikasi kueri yang tidak lengkap dan tingkat toleransi kesalahan yang tidak peka. Sistem temu kembali informasi berhubungan dengan teks bahasa alami yang tidak selalu terstruktur dengan baik dan bersifat ambigu (Baeza-Yates, 1999).

Menurut Sicilia (2006) definisi yang paling umum untuk metadata mengatakan, "Metadata adalah data tentang data '. Tapi ini definisi umum ini tidak menangkap banyaknya kemungkinan deskripsi untuk sumber daya digital.

Sementara itu, Greenberg (2003) mendefinisikan metadata sebagai data terstruktur tentang obyek yang mendukung fungsi yang terkait dengan objek yang ditunjuk. Struktur dalam metadata mensyaratkan bahwa informasi disusun secara sistematis, dan ini adalah suatu aspek yang jauh dari kontroversi, terutama karena adanya fakta bahwa saat ini metadata dalam banyak domain adalah sebuah subjek untuk standardisasi.

Lain dengan Xiong et al. (2011) yang berpendapat bahwa metadata adalah data yang menggambarkan organisasi dan struktur file, biasanya termasuk isi direktori, atribut file, pointer berkas blok, organisasi dan informasi bentuk dari ruang fisik, dll. Pengolahan metadata tidak hanya mencakup pemeliharaan namespace , tetapi juga atribut file dan lokasi blok file.

Metadata memberikan fungsi yang sama seperti katalog yaitu: membuat sumberdaya bisa ditemukan dengan menggunakan kriteria yang relevan; mengidentifikasi sumberdaya mengelompokkan sumberdaya yang serupa membedakan sumberdaya yang tak miliki kesamaan memberikan informasi lokasi

Bretheron, F. P & Singley (1994) membagi metadata atas 2 kelas: structural/control metadata dan guide metadata. Dimana Structural metadata adalah digunakan untuk menjelaskan struktur dari sistem dari komputer seperti table, kolom dan index. Guide metadata adalah digunakan untuk membantu pengguna mencari item-item tertentu yang biasanya ditampilkan dengan menggunakan kata kunci/keywords dalam bahasa sehari-hari.

NISO (2004) membedakan metadata menjadi tiga tipe: descriptive, structural dan administrative. Descriptive metadata adalah informasi yang digunakan mencari dan menemukan obyek tertentu misalnya judul, pengarang, NISO (2004) membedakan metadata menjadi tiga tipe: descriptive, structural dan administrative. Descriptive metadata adalah informasi yang digunakan mencari dan menemukan obyek tertentu misalnya judul, pengarang,

2.1.7 Jaccard Similarity

Juga dikenal sebagai indeks Jaccard, dengan koefisien kemiripan Jaccard adalah ukuran statistik kemiripan antara set sampel. Untuk dua set, Jaccard Similarity dapat dicari dengan menbagi kardinalitas dari intersection dibagi dengan kardinalitas union. Misalkan ada 2 buah himpunan atau set sampel A dan

B, maka secara matematis dapat ditulis sebagai berikut: (Bank, 2008)

2.2 Penelitian Terkait

Penelitian yang terkait dengan email filtering yang telah dilakukan sebelumnya antara lain adalah sebagai berikut:

1. Spam Mail Filtering through Dynamically Updating Url Statistics (Kim et al., 2005) Makalah ini menyajikan teknik penyaringan spam mail yang unik berbasis pada analisis mendalam statistik url dicantumkan dalam berbagai email yang dikumpulkan dari sebuah laboratorium di sebuah universitas selama sekitar enam bulan. Karena teknik penyaringan email yang diusulkan hanya mencari url di email , overhead diperkenalkan dengan mencari isi semua surat atau daftar hitam digunakan oleh algoritma penyaringan email lainnya berkurang secara signifikan. Selain itu, diusulkan teknik penyaringan dengan pembaruan daftar url secara dinamis melalui umpan balik klien, dan penyimpangan dapat dihilangkan seiring dengan kemajuan proses penyaringan.

Penelitian ini memperkenalkan teknik berbasis algoritma data mining untuk mengklasifikasi pesan masuk, sebagai dasar untuk keseluruhan arsitektur untuk pemeliharaan dan pengelolaan pesan email. Penelitian ini memanfaatkan teknik clustering untuk pengelompokan informasi tersruktur dan tidak terstruktur yang diekstrak dari pesan email tanpa supervisi, dan memanfaatkan algoritma yang dihasilkan dalam proses penciptaan dan pengelolaan folder serta email redirection . Beberapa hasil percobaan awal menunjukkan efektivitas teknik, baik dari efisiensi dan sudut pandang kualitas hasil.

3. Workload Characterization of Spam Email Filtering Systems (Luo et al., 2010) Sistem pelayanan email telah rusak cukup parah dengan adanya spam atau email yang tidak diinginkan. Hal ini dapat terjadi karena belum adanya layanan penyaringan email yang dapat mengimbangi kecepatan dari perkembangan layanan email yang tersedia. Penelitian ini berusaha mengatasi masalah tersebut dengan memanfaatkan dukungan dari arsitertur computer. Dalam tulisan ini, sebagai langkah pertama menuju desain arsitektur baru, disajikan data-data dari pengukuran kinerja system penyaringan email yang tersedia seperti CRM114, DSPAM, SpamAssassin dan TREC Bogofilter. Penelitian ini menganalisis secara rinci mengenai waktu performansi dari system penyaringen email tersebut, juga menunjukkan bagaimana arsitektur dari prosesor computer berpengaruh terhadap kinerja dari system penyaringan email tersebut.

4. Stacking Classifiers for Anti-Spam Filtering of Email (Sakkis et al., 2001) Penelitian ini mengevaluasi secara empiris skema untuk menggabungkan classifier , yang dikenal sebagai generalisasi tertumpuk, dalam konteks penyaringan anti-spam, aplikasi berbiaya sensitif untuk pengkategorisasian teks. Email komersial yang tidak diminta atau spam, membanjiri kotak surat, menyebabkan frustrasi, menghabiskan bandwidth, dan mengekspos isi yang tidak sesuai untuk anak di bawah umur. Menggunakan korpus publik, penelitian ini 4. Stacking Classifiers for Anti-Spam Filtering of Email (Sakkis et al., 2001) Penelitian ini mengevaluasi secara empiris skema untuk menggabungkan classifier , yang dikenal sebagai generalisasi tertumpuk, dalam konteks penyaringan anti-spam, aplikasi berbiaya sensitif untuk pengkategorisasian teks. Email komersial yang tidak diminta atau spam, membanjiri kotak surat, menyebabkan frustrasi, menghabiskan bandwidth, dan mengekspos isi yang tidak sesuai untuk anak di bawah umur. Menggunakan korpus publik, penelitian ini

5. IEMS (The Intelligent Email Sorter) (Crawford et al., 2002)

Klasifikasi email merupakan tugas sehari-hari yang penting bagi sejumlah besar pengguna layanan email yang terus berkembang. Makalah ini menggambarkan pendekatan pembelajaran mesin yang mendasari sistem IEMS. Sistem ini memiliki dua aspek distictive: sistem ini menawarkan pemandangan di kotak masuk berdasarkan klasifikasi pesan terprediksi; dan menyediakan pengguna dengan rincian keakuratan prediksi dan proses yang mendasarinya. Sistem

komposit yang

mengklasifikasikan mail dengan menggabungkan pendekatan berbasis contoh yang membangun deskripsi eksplisit umum. Hal ini dimaksudkan dalam rangka untuk mencapai aturan klasifikasi yang dapat dimengerti, ringkas dan efektif. Penelitian ini melaporkan hasil dari pemnbelajaran serta beberapa data lain dari lima pengguna yang menerapkan cara yang berbeda untuk mengklasifikasi email mereka. Penelitian ini juga membahas implikasi dari hasil yang dicapai, seperti performansi dalam pendekatan pembelajaran, sensitivitas dalam pemusatan konsep dan kemudahan dengan aturan klasifikasi yang bisa dipahami oleh pengguna.

6. A Bayesian Approach to Filtering Junk Email: In Learning for Text Categorization (Sahami et al., 1998) Untuk mengatasi masalah pertumbuhan email sampah di internet, panelitian ini meneliti metode untuk pembangunan filter untuk menghilangkan aliran pesan email yang tidak diinginkan oleh pengguna secara otomatis. Dengan memasukkan masalah ini dalam kerangka keputusan teoritis, penelitian ini dapat menggunakan metode pembelajaran probabilistik yang berhubungan dengan gagasan biaya diferensial dari kesalahan klasifikasi untuk menghasilkan filter yang cocok untuk melaksanakan tugas ini. Pada awalnya, mungkin masalah ini 6. A Bayesian Approach to Filtering Junk Email: In Learning for Text Categorization (Sahami et al., 1998) Untuk mengatasi masalah pertumbuhan email sampah di internet, panelitian ini meneliti metode untuk pembangunan filter untuk menghilangkan aliran pesan email yang tidak diinginkan oleh pengguna secara otomatis. Dengan memasukkan masalah ini dalam kerangka keputusan teoritis, penelitian ini dapat menggunakan metode pembelajaran probabilistik yang berhubungan dengan gagasan biaya diferensial dari kesalahan klasifikasi untuk menghasilkan filter yang cocok untuk melaksanakan tugas ini. Pada awalnya, mungkin masalah ini

7. An Evaluation of Naive Bayesian Anti-Spam Filtering (Androutsopoulos et al., 2000) Penelitian ini mengevaluasi metode Naïve Bayesian untuk penyaringan email. Berdasarkan penelitian ini, metode Naïve Bayesian masih memiliki kelemahan, yaitu meskipun memiliki spam recall dan presisi yang tinggi, metode ini tidak bekerja dengan baik bila pesan yang telah diblokir kemudian dihapus.

2.3 Rencana Penelitian

Rencana penelitian pada skripsi ini antara lain :

1. Metode yang digunakan untuk mensimulasikan pendeteksian spam email ini memanfaatkan prinsip information retrieval.

2. Metadata di dalam program simulasi ini akan digunakan untuk mengambil meta keywords dari url yang ditelusuri sehingga dapat dibandingkan dan dihitung kemiripannya dengan keywords porno yang sudah terdapat di dalam database .

3. Jaccard Similarity dalam program simulasi ini akan digunakan untuk menghitung kemiripan antara metadata keywords yang diperoleh dari url dengan keywords porno yang sudah terdapat di dalam database.

METODE PENELITIAN

Metodologi penelitian yang digunakan dalam penulisan skripsi ini adalah pembangunan program untuk mensimulasikan pendeteksian email dan disertai dengan studi literatur. Langkah-langkah yang dilakukan dalam penelitian skripsi ini adalah sebagai berikut:

3.1 Studi Literatur

Studi literatur dilakukan dengan mencari dan mengumpulkan referensi berupa jurnal, skripsi, serta tesis, maupun artikel yang berkaitan dengan email filtering dan information retrieval. Keluaran yang diperoleh dari tahap ini adalah rangkuman dasar teori dan penelitian terkait yang pernah dilakukan sebelumnya.

3.2 Tahap Perancangan

3.2.1 Perancangan framework

Pada tahap ini yang dirancang adalah framework yang digunakan untuk mensimulasikan proses pendeteksian email.

3.2.2 Perancangan flowchart

Pada tahap ini yang dirancang adalah flowchart yang digunakan untuk mensimulasikan proses pendeteksian email.

3.3 Tahap Implementasi

Dalam tahap implementasi ini terdapat 3 kegiatan inti, yaitu:

1. Pembuatan Database Database pada program simulasi pendeteksian email ini dibuat dengan Database Management System (DBMS) MySQL.

2. Pembuatan Kode Program Seluruh fungsi yang dibutuhkan diterjemahkan ke dalam rangkaian kode sumber aplikasi hingga selanjutnya menjadi sebuah prototype program yang

PHP (Hypertext Preprocessor).

3. Debugging Debugging dilakukan untuk pengujian terhadap program dalam mencari error yang masih terdapat pada program, untuk selanjutnya diperbaiki.

3.4 Tahap Pengujian

Pengujian ini akan dilakukan dengan 2 cara yaitu :

1. Menguji hasil pendeteksian email dengan melihat hasil/keluaran dari beberapa contoh yang dimasukkan ke dalam program.

2. Menghitung runtime program dengan beberapa masukan atau input yang berbeda.

PEMBAHASAN

4.1 Analisis Kebutuhan

4.1.1 Deskripsi Umum Simulasi

Beberapa poin penting yang harus diperhatikan dalam simulasi ini, antara lain:

1. Spam yang dimaksud dalam simulasi pendeteksian spam email ini adalah semua email yang mengandung url porno. Jadi, walaupun email tersebut merupakan legitimate email atau email yang berasal dari sumber yang jelas tetap akan dideteksi sebagai spam jika di dalam email tersebut mengandung url porno.

2. Setelah proses pendeteksian, email akan dikategorikan menjadi 2 yaitu email aman dan email porno.

3. Metode yang digunakan untuk mensimulasikan pendeteksian spam email ini cukup sederhana yaitu dengan memanfaatkan prinsip information retrieval. Program akan membaca menelusuri url yang terdapat di dalam email kemudian mengambil metadata keywords dari url tersebut untuk dibandingkan dan dihitung kemiripannya dengan keywords porno yang ada di database dengan menggunakan jaccard similarity.

4. Metadata di dalam program simulasi ini akan digunakan untuk mengambil meta keywords dari url yang dituju sehingga dapat dibandingkan dan dihitung kemiripannya dengan keywords porno yang sudah terdapat di dalam database .

5. Jaccard Similarity dalam program simulasi ini akan digunakan untuk menghitung kemiripan antara metadata keywords yang diperoleh dari url dengan keywords porno yang sudah terdapat di dalam database.

6. Ambang batas Jaccard Similarity adalah 0.1, yang berarti bila Jaccard Similarity < 0.1 maka akan dideteksi sebagai url aman, sebaliknya bila Jaccard Similarity >= 0.1 maka akan dideteksi sebagai url porno.

diasumsikan bahwa kata-kata yang terdapat dalam database keywords porno merupakan kata-kata yang mewakili metadata keywords yang terdapat di dalam url porno, sedangkan metadata keywords dalam url sendiri mewakili keseluruhan isi dari url tersebut. Jadi jika ada 1 kata yang sama dari 10 gabungan kata dari metadata keywords dan dari database keywords porno, maka dapat diasumsikan url tersebut adalah url porno

8. Alasan digunakannya Jaccard Similarity dalam simulasi ini adalah:

Jaccard Similarity dalam penghitungan intersectionnya mempunyai sifat exact atau harus sama persis. Maksudnya di dalam Jaccard similarity hanya ada nilai 1 dan 0, 1 jika sama persis, 0 jika tidak sama. Misal di terdapat sebuah set sampel A yang berisi sebuah kata yaitu PORN, kemudian ada set sampel B yang berisi kata-kata CORN, HORN, PORN, BORN, dan TORN, maka intersection dari 2 set sampel A dan B tersebut bernilai 1, karena hanya 1 kata yang sama persis denga kata yang diharapkan, yaitu PORN. Hal ini sangat penting dalam simulasi pendeteksian email ini, karena dalam simulasi pendeteksian email ini intersection diambil dari kata-kata yang terdapat dalam metadata keywords yang harus sama persis dengan kata-kata yang terdapat di dalam keywords porno yang terdapat di dalam database, mengingat kata- kata tersebut adalah karakteristik yang menentukan sebuah url adalah url porno atau bukan. Penghitungan Jaccard Similarity dinilai mudah dan tidak memerlukan waktu eksekusi atau runtime yang lama. Hal ini sangat penting dalam simulasi pendeteksian email ini mengingat jika nanti simulasi pendeteksian email ini akan diwujudnyatakan ke dalam sebuah email sever yang sebenarnya, maka waktu eksekusi atau runtime merupakan hal yang sangat signifikan yang harus sangat diperhitungkan.

Program untuk simulasi email filtering ini memiliki fungsi-fungsi antara lain sebagai berikut:

1. Fungsi Input Source email Merupakan fungsi untuk memasukkan file email yang berupa text file (.txt) untuk disaring.

2. Fungsi cek status email Merupakan fungsi untuk mengecek status email, apakah email sudah difilter atau belum.

3. Fungsi membaca url email Merupakan fungsi untuk membaca alamat url yang terdapat di dalam file email yang berupa text file (.txt).

4. Fungsi pencocokan url Merupakan fungsi untuk mencocokkan url yang dtemukan dengan url yang ada di dalam table porn_site di database.

5. Fungsi crawl dan metadata Merupakan fungsi untuk menelusuri url yang terdapat di dalam email ke alamat yang sebenarnya, yang kemudian akan diambil metadata keywords- nya.

6. Fungsi menghitung Jaccard Similarity Merupakan fungsi untuk menghitung kemiripan antara metadata keywords dari alamat web dengan keywords dari database.

7. Fungsi Penambahan Peringatan Merupakan fungsi untuk menambahkan peringatan ke dalam file email yang telah disaring. Peringatan ditambahkan ke dalam subject email.

8. Fungsi menghitung runtime program Merupakan fungsi untuk menghitung runtime program.

4.2.1 Arsitektur Simulasi Pendeteksian Email

AGENT

Database dalam

Email Server

IMAP

POP3

MAIL TRANSFER

AGENT

INTERNET

EMAIL SERVER

SMTP

Module Untuk

Pendeteksian

Spam Email

Detection and clustering layer

Protokol email

Database

url porno

Database keywords

porno

Gambar 4.1. Arsitektur Simulasi Pendeteksian Email

Gambar 4.1 menunjukkan bahwa: Arsitektur di atas memperlihatkan adanya tambahan layer baru yang akan dibangun di dalam email server, yaitu detection and clustering layer. Layer ini berfungsi untuk mendeteksi dan mengelompokkan email dalam database server yang mengandung konten pornografi. Hasilnya email yang dikirim ke inbox user akan dikelompokkan dan diberi notifikasi apakah email tersebut mengandung konten pornografi atau tidak. Program yang akan dibuat ini akan mensimulasikan proses pendeteksian email dalam detection and clustering layer.

Bagian utama dalam detection dan clustering layer ada 2, yaitu:

1. Bagian yang pertama adalah modul untuk pendeteksian email.Modul ini berisi kode program dalam bahasa php yang dgunakan untuk mendeteksi email yang masuk di dalam database server.

2. Bagian kedua adalah database untuk pendeteksian email. Database ini terdiri dari 2 bagian yaitu database yang berisi url porno dan database yang berisi keywords porno.

berikut:

1. SMTP akan mendownload email yang dikirim dari server lain ke dalam server sendiri.

2. Setelah itu, email yang diterima kemudian disimpan di database server, email tersebut belum dikelompokkan.

3. Email yang terdapat di database server kemudian dideteksi dan dikelompokkan menurut ada tidaknya konten pornografi dalam email tersebut. Proses ini akan berlangsung di dalam detection and clustering layer. Program yang akan dibuat ini akan mensimulasikan proses pendeteksian email dalam layer ini.

4. Hasil dari pendeteksian email tersebut akan dikirimkan oleh POP3 atau IMAP untuk ditampilkan di kotak masuk user lengkap dengan notifikasi apakah terdapat konten pornografi dalam email tersebut atau tidak.

mulai

Input email

Cek konten

Url=ada ?

Notion email safe

selesai

Hitung pnjng email

i=0

i<pnjng

Url = url db Y porn?

Notion email porn

T crawling

Get meta keywords

Calculate jaccard similarity

Jaccard similarity >=0,1

Notion email safe

Notion email porn

Url masuk database

Url berikutnya = ada?

Email sudah di filter?

Peringatan email sudah difilter

Gambar 4.2. Flowchart Pendektesian Email

1. Email yang masuk akan di cek apakah email tersebut sudah difilter atau belum, jika sudah akan diberi peringatan bahwa email tersebut sudah difilter dan proses akan berhenti. Jika belum proses akan berlanjut.

2. Selanjutnya akan dihitung panjang email, dan diinisiasi variabel i = 0.

3. Selama i < panjang email, proses akan berlanjut dengan pencarian url di dalam file email tersebut.

4. Jika terdapat url dalam email tersebut akan dicek apakah url tersebut termasuk salah satu url porno yang terdaftar di basis data. Jika tidak terdapat url di email tersebut maka proses akan berhenti dan diberi notifikasi sebagai email yang aman dan proses berhenti.

5. Jika url tersebut cocok dengan url porno yang terdaftar di basis data, maka

email akan diberi notifikasi sebagai email porno dan proses berhenti.

6. Jika url tidak cocok dengan porno yang terdaftar di basis data, maka url akan ditelusuri.

7. Selanjutnya diambil metadata keywords dari url yang dituju.

Dokumen yang terkait

Institutional Repository | Satya Wacana Christian University: Perancangan dan Implementasi Aplikasi Deteksi Kemiripan Dokumen Menggunakan Algoritma Shingling dan MD5 Fingerprint

0 0 20

BAB II KAJIAN TEORI 2.1 Kompetensi Guru - Institutional Repository | Satya Wacana Christian University: Pelatihan Model Simulasi untuk Meningkatkan Kompetensi Guru dalam Penyusunan RPP Tematik di SDN Wates 4 Magelang

0 1 23

BAB III METODE PENELITIAN - Institutional Repository | Satya Wacana Christian University: Pelatihan Model Simulasi untuk Meningkatkan Kompetensi Guru dalam Penyusunan RPP Tematik di SDN Wates 4 Magelang

0 0 13

BAB IV HASIL DAN PEMBAHASAN - Institutional Repository | Satya Wacana Christian University: Pelatihan Model Simulasi untuk Meningkatkan Kompetensi Guru dalam Penyusunan RPP Tematik di SDN Wates 4 Magelang

0 0 26

Institutional Repository | Satya Wacana Christian University: Pelatihan Model Simulasi untuk Meningkatkan Kompetensi Guru dalam Penyusunan RPP Tematik di SDN Wates 4 Magelang

0 0 16

Institutional Repository | Satya Wacana Christian University: Pelatihan Model Simulasi untuk Meningkatkan Kompetensi Guru dalam Penyusunan RPP Tematik di SDN Wates 4 Magelang

0 0 181

PERFORMA BIBIT SAWI PAKCOY (Brassica rapa L.) PADA BERBAGAI NILAI EC (ELECTRICAL CONDUCTIVITY) DENGAN METODE HIDROPONIK Imam Ifanto dan Suprihati Fakultas Pertanian dan Bisnis, Universitas Kristen Satya Wacana Email : imam.ifanto07gmail.com ABSTRACT - Ins

1 6 6

Institutional Repository | Satya Wacana Christian University: Pembuatan Game Simulasi Trading Saham pada Platform Android

0 1 26

Academicopter : Mesin Pencarian Meta Untuk Akademik Dengan Peringkasan Otomatis Pdf Jurnal Ilmiah

0 2 63

Kata kunci : Deteksi Komunitas, Algoritma CNM-Centrality, Damping factor, Modularity

0 0 8