Rekomendasi Tag Pada Berita Online Menggunakan Tf-Idf Dan Collaborative Tagging

(1)

SKRIPSI

SALMAN ALL FARIZI

091402007

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI

UNIVERSITAS SUMATERA UTARA

MEDAN

2015


(2)

SKRIPSI

Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah Sarjana Teknologi Informasi

SALMAN ALL FARIZI 091402007

PROGRAM STUDI S1 TEKNOLOGI INFORMASI

FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI UNIVERSITAS SUMATERA UTARA

MEDAN 2015


(3)

Judul : REKOMENDASI TAG PADA BERITA ONLINE

MENGGUNAKAN TF-IDF DAN

COLLABORATIVE TAGGING

Kategori : SKRIPSI

Nama : SALMAN AL FARIZI

Nomor Induk Mahasiswa : 091402007

Program Studi : SARJANA (S1) TEKNOLOGI INFORMASI

Departemen : TEKNOLOGI INFORMASI

Fakultas : ILMU KOMPUTER DAN TEKNOLOGI

INFORMASI (FASILKOM-TI) UNIVERSITAS SUMATERA UTARA

Diluluskan di Medan, April 2015

Komisi Pembimbing :

Pembimbing 2 Pembimbing 1

Dr. Erna Budhiarti Nababan, M.IT Mohammad Fadly Syahputra, B.Sc, M.Sc.IT

NIP- NIP 198301292009121003

Diketahui/Disetujui oleh

Program Studi S1 Teknologi Informasi Ketua,

Muhammad Anggia Muchtar, S.T., MM.IT. NIP198001102008011010


(4)

REKOMENDASI TAG PADA BERITA ONLINE MENGGUNAKAN

TF-IDF DAN COLLABORATIVE TAGGING

SKRIPSI

Saya mengakui bahwa skripsi ini adalah hasil karya sendiri, kecuali beberapa kutipan dan ringkasan yang masing-masing disebutkan sumbernya.

Medan, April 2015

Salman Al Farizi 091402007


(5)

Puji dan syukur penulis sampaikan kehadirat Allah SWT yang telah memberikan rahmat dan hidayah-Nya sehingga penulis dapat menyelesaikan skripsi ini sebagai syarat untuk memperoleh gelar Sarjana Teknologi Informasi, Program Studi S1 Teknologi Informasi Universitas Sumatera Utara.

Ucapan terima kasih penulis sampaikan kepada Bapak Mohammad Fadly Syahputra, B.Sc, M.Sc.IT selaku pembimbing satu dan Ibu Dr. Erna Budhiarti Nababan, M.IT selaku pembimbing dua yang telah banyak meluangkan waktu dan pikirannya, memotivasi dan memberikan kritik dan saran kepada penulis. Ucapan terima kasih juga ditujukan kepada Bapak Dani Gunawan ST.,M.T dan Ibu Sarah Purnamawati ST.,M.Sc yang telah bersedia menjadi dosen pembanding. Ucapan terima kasih juga ditujukan kepada Ketua dan Sekretaris Program Studi Teknologi Informasi, Muhammad Anggia Muchtar, S.T., MM.IT dan Mohammad Fadly Syahputra, B.Sc, M.Sc.IT, Dekan dan Pembantu Dekan Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara, semua dosen serta pegawai di Program Studi S1 Teknologi Informasi.

Skripsi ini terutama penulis persembahkan untuk kedua orang tua dan keluarga penulis yang telah memberikan dukungan dan motivasi, Ayahanda Achyar Hasanuddin dan Ibunda Suwarni yang selalu sabar dalam mendidik dan membesarkan penulis. Untuk adik Umi Kalsum dan Sulastri Ningsih yang selalu memberikan dorongan kepada penulis. Terima kasih penulis ucapkan kepada Bapak M. Safri Lubis selaku dosen dan pembimbing penulis dalam kegiatan akademik dan non akademik, Lydia Alissa, Wildan Afifi, Masryan Siregar, Alvin Rizki, Badruts Tsani, Jihan Meutia, Amira Akhmad, Fadhilah Hasyim, Fadil Haryudi, M. Fadhullah, Nurul Fadlia, Muslim Ramli, Yudhitya Syahputra yang tidak pernah bosan dalam menyemangati dan membantu penulis, teman-teman seperjuangan, bang Franheit Sangapta, bang Billy Azzahry, bang Ilham Akbar, bang Nanda Putra, bang Reyhan Samantha, Putra Fitrawan, Kak Umi Hani dan bang Muhammad Fadhly Sani yang sudah penulis anggap seperti saudara sendiri serta teman-teman mahasiswa Teknologi Informasi lainnya yang tidak dapat penulis sebutkan satu persatu. Semoga Allah SWT membalas kebaikan kalian dengan nikmat yang berlimpah.


(6)

Perkembangan teknologi internet yang sangat pesat menyebabkan semakin tingginya arus informasi dan semakin meningkatkannya jumlah berita yang terpublikasikan secara online. Teknologi social tagging hadir untuk mempermudah proses pencarian berita online dan pengaturan arsip berita berdasarkan kesamaan informasi tag. Untuk mempermudah pemberian tag, sistem autotag terus dikembangkan. Dalam penelitian ini, sistem autotag dikembangkan menggunakan metode TF-IDF dan Collaborative tagging dimana tahapannya diawali dengan text preprocessing kemudian feature selection dan proses menghitung bobot TF-IDF. Kemudian diterapkan metode

Collaborative tagging yaitu pengukuran kesamaan dengan menghitung persentase kemiripan tag hasil ekstraksi TF-IDF dengan tag -tag berita yang telah dipublikasikan sebelumnya. Hasil dari penelitian ini menunjukkan bahwa metode TF-IDF dapat digunakan untuk memberikan rekomendasi tag secara otomatis dengan relevansi tag

terhadap isi berita yaitu 79,97% dan 80,6% untuk relevansi rata – rata menggunakan

Collaborative Tagging.


(7)

USING TF-IDF AND COLLABRORATIVE TAGGING

ABSTRACT

The rapid development of internet technology leads to increase the flow of information and further increase the amount of published news online. Social tagging techonology exists to simplyfy the search process of news online and news archive settings based on tag infomation similarity. To facilitate tagging process, autotag system is developed. In this study, the autotag system is developed by using TF-IDF and Collaborative Tagging where the process begins with text preprocessing until feature selection and the TF-IDF weight calculating process. The Collaborative tagging method is used for measuring the tag similarity by calculating the similarity tag percentage which is the result of TF-IDF extraction with news' tag that has been published beforehand. The result of this study shows that TF-IDF method can be used to provide tag recommendation automatically with the tag relevance of news' content is 79,97% and 80,6% for the average relevance using Collaborative Tagging.


(8)

Hal.

Persetujuan i

Pernyataan ii

Ucapan Terima Kasih iii

Abstrak iv

Abstract v

Daftar Isi vi

Daftar Tabel viii

Daftar Gambar ix

Bab 1 Pendahuluan 1

1.1. Latar Belakang 1

1.2 Rumusan Masalah 2

1.3 Batasan Masalah 2

1.4 Tujuan Penelitian 3

1.5 Manfaat Penelitian 3

1.6 Metode Penelitian 3

1.7 Sistematika Penulisan 4

Bab 2 Landasan Teori 6

2.1 Rekomendasi Tag 6

2.2 Text Mining 7

2.2.1 Pre-Processing 8

2.2.2 Processing 10

2.3 Algoritma Nazief & Adriani 10

2.4 Term Frequency-Invers Document Frequency (TF-IDF) 13

2.5 Collaborative Tagging 15

2.6 Penerapan TF-IDF dan Collaborative Tagging pada Rekomendasi Tag 16

2.7 Teknik Rekomendasi Tag Terdahulu 18

Bab 3 Analisa Dan Perancangan Sistem 23

3.1 Identifikasi Masalah 23

3.2 Data yang Digunakan 24

3.3 Rekomendasi Tag Menggunakan TF-IDF dan Collaborative Tagging 30

3.4 Perancangan Sistem 34

3.4.1 Usecase Diagram 34

3.4.2 Usecase Specification 36

3.4.3 Activity Diagram 43

3.4.4 Perancangan Database 50

3.4.5 Rancangan Menu Sistem 51


(9)

4.1 Implementasi Sistem 58 4.1.1 Spesifikasi Perangkat Keras dan Lunak yang Digunakan 58

4.1.2 Implementasi Perancangan Antarmuka 58

4.2 Pengujian Kinerja Sistem 65

Bab 5 Kesimpulan dan Saran 87

5.1 Kesimpulan 87

5.2 Saran 87


(10)

Hal. Tabel 2.1 Tabel kombinasi awalan akhiran tidak diijinkan (Adriani, et al. 2007) 12 Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani, et al. 2007) 12

Tabel 2.3 Penelitian Sebelumnya 21

Tabel 3.1 Data Testing 24

Tabel 3.2 Data Berita yang Telah Dipublikasikan 25

Tabel 3.3 Tahap Tokenizing 31

Tabel 3.4 Stopword 31

Tabel 3.5 Hasil Tahap Filtering 31

Tabel 3.6 Tahap Stemming 32

Tabel 3.7 Hasil Perhitungan TF.IDF 32

Tabel 3.8 Hasil Pengurutan Bobot TF.IDF 33

Tabel 3.9 Berita Dalam Database 33

Tabel 3.10 Contoh Collaborative Tag 34

Tabel 3.11 Tabel Rekomendasi Tag Akhir 34

Tabel 3.12 Usecase Spesifikasi untuk Usecase Berita 36

Tabel 3.13 Usecase Spesifikasi untuk Usecase Hubungi Kami 36

Tabel 3.14 Usecase Spesifikasi untuk Usecase Sign Up 37

Tabel 3.15 Usecase Spesifikasi untuk Usecase Manajemen Modul 37 Tabel 3.16 Usecase Spesifikasi untuk Usecase Identitas Web 38 Tabel 3.17 Usecase Spesifikasi untuk Usecase Manajemen User 38 Tabel 3.18 Usecase Spesifikasi untuk Usecase Manajemen Template 39

Tabel 3.19 Usecase Spesifikasi untuk Usecase Menu Utama 39

Tabel 3.20 Usecase Spesifikasi untuk Usecase Sub Menu 40

Tabel 3.21 Usecase Spesifikasi untuk Usecase Manajemen Hubungi Kami 40 Tabel 3.22 Usecase Spesifikasi untuk Usecase Manajemen Berita 41

Tabel 3.23 Usecase Spesifikasi untuk Usecase Sensor Kata 41

Tabel 3.24 Usecase Spesifikasi untuk Usecase Kategori Berita 42

Tabel 3.25 Usecase Spesifikasi untuk UsecaseTag/Label 42

Tabel 4.1 Data Masukan yang Akan Diuji 65

Tabel 4.2 Data Hasil TF-TDF 66

Tabel 4.3 Jumlah kemiripan Tag Minimal dengan Similarity 50% 67

Tabel 4.4 Hasil Rekomendasi Tag Terhadap Max Kata 67


(11)

Hal. Gambar 2.1 Representasi Grafik Triplet (u, d, t) (Song et al, 2008) 6 Gambar 2.2 Flow Chart Algoritma Nazief & Adriani (Nazief et al, 1996) 11

Gambar 3.1 General Architecture Rekomendasi tag 30

Gambar 3.2 Input Text Berita pada Kategori Teknologi 30

Gambar 3.3 Use Case Diagram Sistem Rekomendasi Tag 35

Gambar 3.4 Diagram Aktivitas untuk Menampilkan Berita 43

Gambar 3.5 Diagram Aktivitas untuk Memberikan Pesan dan Saran 44

Gambar 3.6 Diagram Aktivitas untuk Sign Up 44

Gambar 3.7 Diagram Aktivitas untuk Manajemen Modul 45

Gambar 3.8 Diagram Aktivitas untuk Memberikan Identitas Web 45

Gambar 3.9 Diagram Aktivitas untuk Manajemen User 46

Gambar 3.10 Diagram Aktivitas untuk Manajemen Template 46

Gambar 3.11 Diagram Aktivitas untuk Menu Utama 47

Gambar 3.12 Diagram Aktivitas untuk Sub Menu 47

Gambar 3.13 Diagram Aktivitas untuk Pengaturan Pesan dan Saran 48

Gambar 3.14 Diagram Aktivitas untuk Kategori Berita 48

Gambar 3.15 Diagram Aktivitas untuk Manajemen Berita 49

Gambar 3.16 Diagram Aktivitas untuk Tag/Label 49

Gambar 3.17 Diagram Aktivitas untuk Kategori Berita 50

Gambar 3.18 Database 51

Gambar 3.19 Struktur Menu Sistem 52

Gambar 3.20 Rancangan Halaman Utama 52

Gambar 3.21 Rancangan Halaman Hubungi Kami 53

Gambar 3.22 Rancangan Halaman Sign up 54

Gambar 3.23 Rancangan Halaman Manajemen User 55

Gambar 3.24 Rancangan Halaman Setting menu Utama 56

Gambar 3.25 Rancangan Halaman Manajemen Isi Berita 56

Gambar 3.26 Rancangan Halaman Manajemen Hubungi Kami 57

Gambar 4.1 Halaman Berita 59

Gambar 4.2 Halaman Hubungi Kami 60

Gambar 4.3 Halaman Sign up 60

Gambar 4.4 Halaman Manajemen User 61

Gambar 4.5 Halaman Menu Utama 61

Gambar 4.6 Halaman Kategori Berita 62

Gambar 4.7 Halaman Berita 62

Gambar 4.8 Halaman Tambah Berita 63

Gambar 4.9 Halaman Tag 64

Gambar 4.10 Halaman Sensor Kata 64


(12)

Perkembangan teknologi internet yang sangat pesat menyebabkan semakin tingginya arus informasi dan semakin meningkatkannya jumlah berita yang terpublikasikan secara online. Teknologi social tagging hadir untuk mempermudah proses pencarian berita online dan pengaturan arsip berita berdasarkan kesamaan informasi tag. Untuk mempermudah pemberian tag, sistem autotag terus dikembangkan. Dalam penelitian ini, sistem autotag dikembangkan menggunakan metode TF-IDF dan Collaborative tagging dimana tahapannya diawali dengan text preprocessing kemudian feature selection dan proses menghitung bobot TF-IDF. Kemudian diterapkan metode

Collaborative tagging yaitu pengukuran kesamaan dengan menghitung persentase kemiripan tag hasil ekstraksi TF-IDF dengan tag -tag berita yang telah dipublikasikan sebelumnya. Hasil dari penelitian ini menunjukkan bahwa metode TF-IDF dapat digunakan untuk memberikan rekomendasi tag secara otomatis dengan relevansi tag

terhadap isi berita yaitu 79,97% dan 80,6% untuk relevansi rata – rata menggunakan

Collaborative Tagging.


(13)

USING TF-IDF AND COLLABRORATIVE TAGGING

ABSTRACT

The rapid development of internet technology leads to increase the flow of information and further increase the amount of published news online. Social tagging techonology exists to simplyfy the search process of news online and news archive settings based on tag infomation similarity. To facilitate tagging process, autotag system is developed. In this study, the autotag system is developed by using TF-IDF and Collaborative Tagging where the process begins with text preprocessing until feature selection and the TF-IDF weight calculating process. The Collaborative tagging method is used for measuring the tag similarity by calculating the similarity tag percentage which is the result of TF-IDF extraction with news' tag that has been published beforehand. The result of this study shows that TF-IDF method can be used to provide tag recommendation automatically with the tag relevance of news' content is 79,97% and 80,6% for the average relevance using Collaborative Tagging.


(14)

BAB 1 PENDAHULUAN

1.1. Latar Belakang

Kebutuhan informasi dan perkembangan teknologi yang semakin tinggi meningkatkan jumlah artikel atau berita yang terpublikasikan, terutama pada media online. Untuk mempermudah proses pencarian berita online dibutuhkan sebuah sistem pengaturan arsip berita berdasarkan kesamaan informasi. Salah satu contohnya adalah penggunaan social tagging, yaitu pemberian tag pada suatu artikel atau berita online.

Tag adalah kata kunci (keyword) atau frase yang mewakili isi dokumen atau objek (Lee et al, 2008). Pada sistus berita online, tag berfungsi memudahkan dalam pencarian data yang serupa dan memudahkan navigasi sehingga pengguna bisa mendapatkan informasi yang sesuai dan mempunyai hubungan antara satu sama lain.

Walaupun demikian, saat ini tag belum benar-benar membantu dalam pencarian web yang disebabkan oleh fakta bahwa sebagian besar dokumen, atau halaman web, mengandung sedikit atau tidak ada informasi tag (Heymann et al, 2008). Selain itu, tidak semua pengguna yang mempublikasikan berita, artikel, atau item lainnya memasukkan tag pada publikasi mereka atau pengguna hanya memberikan beberapa tag yang masih dianggap kurang lengkap atas berita, artikel ataupun item yang mereka publikasikan karena dianggap menyita waktu tambahan untuk memikirkan tag apa saja yang tepat untuk mendeskripsikan berita tersebut (Purbasari et al, 2013).

Untuk memudahkan pemberian tag pada suatu berita, artikel, atau item yang akan dipublikasikan dapat digunakan fitur autotag yaitu pemberian rekomendasi tag

secara otomatis. Penelitian-penelitian untuk mengembangkan fitur autotag telah banyak dilakukan dengan berbagai metode baik menggunakan metode statistik maupun keterhubungan antar kata sehingga diperoleh sistem rekomendasi tag yang lebih relevan dan akurat. Beberapa diantaranya adalah penelitian rekomendasi tag


(15)

menggunakan metode Latent Semantic Indexing untuk memberikan rekomendasi tag

pada dokumen blog (Muflikhah et al, 2013), rekomendasi tag dengan teknik

Association Rule Mining (Purbasari et al, 2013), rekomendasi tag dengan metode

Content-based (Lu et al, 2009), rekomendasi tag dengan metode Graph-based Ranking pada Multi-type Interrelated Objects (Guan, et al 2009) dan dan penelitian-penelitian lainnya.

Pada penelitian ini, peneliti menerapkan metode text mining yaitu Term Frequency-Inverse Document Frequency (TF-IDF) untuk ekstraksi keywords dari dalam dokumen. TF-IDF telah banyak dipakai untuk menyelesaikan berbagai masalah klasifikasi/pengkategorian data, pengecekan kesamaan isi teks, dan sistem rekomendasi seperti klasifikasi dokumen naskah dinas (Herman et al, 2012), pengkategorian dokumen dan pengukuran tingkat similaritas dokumen penulisan ilmiah di Universitas Gunadarma (Herwansyah, 2009), serta penelitian-penelitian lainnya. Selain itu, penelitian ini juga memanfaatkan Algoritma Nazief & Adriani untuk stemming bahasa Indonesia dan teknik Collaborative tagging yang memungkinkan tag yang akan direkomendasikan dapat berasal dari dalam artikel berita itu sendiri dan artikel berita yang mirip serta sudah pernah diterbitkan sebelumnya. Prinsip kerja pemberian tag pada penelitin ini dapat dibagi menjadi 2 tahapan yaitu autotag ketika admin menerbitkan artikel baru dan pemberian tag yang dilakukan admin secara manual.

1.2 Rumusan Masalah

Berdasarkan latar belakang di atas maka diperlukan pendekatan yang dapat memberikan rekomendasi tag pada sebuah website berita online untuk memudahkan pengguna dalam memberikan tag pada artikel.

1.3 Batasan Masalah

Agar penyusunan tugas akhir ini tidak keluar dari pokok permasalahan yang dirumuskan, maka ruang lingkup pembahasan dibatasi pada:

1. Hanya berlaku pada artikel berbahasa Indonesia


(16)

1.4 Tujuan Penelitian

Adapun tujuan penelitian ini adalah untuk merekomendasikan tag pada suatu artikel berbahasa Indonesia menggunakan metode TF-IDF dan Collaborative tagging.

1.5 Manfaat Penelitian

Penelitian ini diharapkan dapat memberkan manfaat yaitu:

1. Memberikan alternatif pilihan bagi user dalam pemberian tag pada artikel.

2. Dapat menjadi bahan rujukan untuk penelitian di bidang sistem rekomendasi tag

selanjutnya

1.6 Metode Penelitian

Tahapan yang dilakukan pada pelaksanaan penelitian skripsi ini adalah sebagai berikut:

1. Studi Literatur

Studi literatur dilakukan dengan mengumpulkan bahan-bahan referensi terkait dengan sistem rekomendasi tag, metode Term Frequency-Inverse Document Frequency (TF-IDF) dan Collaborative tagging dari berbagai sumber.

2. Analisis Permasalahan

Pada tahap ini dilakukan analisis terhadap hasil studi literatur untuk mendapatkan pemahaman mengenai metode TF-IDF dan Collaborative tagging dalam rekomendasi tag.

3. Perancangan Sistem

Pada tahap ini dilakukan perancangan arsitektur, perancangan data dan perancangan antar muka. Proses perancangan dilakukan berdasarkan hasil analisis studi literatur yang telah diperoleh.

4. Implementasi Sistem

Pada tahap ini dilakukan proses implemetasi pengkodean program dalam aplikasi komputer menggunakan bahasa pemrograman yang telah dipilih sesuai dengan analisis dan perancangan yang telah dilakukan.


(17)

5. Pengujian

Pada tahap ini dilakukan proses pengujian dan percobaan terhadap sistem sesuai dengan kebutuhan yang ditentukan sebelumnya serta memastikan program yang dibuat berjalan seperti yang diharapkan.

6. Dokumentasi dan Penyusunan Laporan

Pada tahap ini dilakukan pembuatan dokumentasi seluruh pengerjaan dari penelitian rekomendasi tag menggunakan metode TF-IDF dan Collaborative Tagging.

1.7 Sistematika Penulisan

Penulisan skripsi ini terdiri dari lima bab dengan masing-masing bab secara singkat dijelaskan sebagai berikut:

Bab 1 Pendahuluan

Bab ini berisikan latar belakang, rumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, metode penelitian, dan sistematika penulisan.

Bab 2 Landasan Teori

Bab ini berisi teori-teori pendukung penelitian skripsi yaitu teori sistem rekomendasi

tag dan Information Retrieval, khususnya metode Term Frequency-Invers Document Frequency (TF-IDF).

Bab 3 Analisis dan Perancangan Sistem

Bab ini berisikan paparan analisis terhadap permasalahan dan penyelesaian persoalan terhadap metode TF-IDF pada sistem rekomendasi tag pada artikel.

Bab 4 Hasil dan Pembahasan

Bab ini berisi implementasi perancangan sistem dari hasil analisis dan perancangan yang sudah dibuat, serta menguji sistem untuk menemukan kelebihan dan kekurangan pada sistem rekomendasi yang dibuat.


(18)

Bab 5 Kesimpulan dan Saran

Bab ini berisikan kesimpulan yang didapatkan terhadap hasil penelitian skripsi dan saran untuk pengembangan lebih lanjut tentang topik terkait yang dibahas pada skripsi.


(19)

BAB 2

LANDASAN TEORI

Bab ini membahas tentang teori penunjang dan penelitian sebelumnya yang berhubungan dengan rekomendasi tag serta metode TF-IDF dan Collaborative tagging.

2.1 Rekomendasi Tag

Rekomendasi tag mengacu pada proses pemberian rekomendasi tag secara otomatis yang berguna dan informatif untuk sebuah objek yang muncul berdasarkan informasi historisnya. Objek yang akan ditandai dapat berupa foto, video atau dokumen. Secara umum, dokumen yang di-tag biasanya berhubungan dengan satu sama lain atau memiliki banyak koneksi tag. Pengguna juga dapat memberikan tag pada dokumennya dengan berbagai persepsi (Song et al, 2008).

Gambar 2.1 Representasi Grafik Triplet (u, d, t) (Song et al, 2008)

Pemberian tag pada dokumen d dilakukan oleh pengguna u dengan tag t dapat direpresentasikan dengan menggunakan triplet (u, d, t). Bila dilihat dari representasi grafiknya, setiap node adalah salah satu elemen dalam triplet dan tiap-tiap ujung dari

node menjadi derajat atau bobot dari koneksinya. Baik pengguna dan dokumen sangat terhubung ke tag, sedangkan hubungan antara tag sendiri tidak bisa diamati secara langsung. Merekomendasikan tag yang relevan dengan pengguna baru atau dokumen


(20)

baru hanya bisa dilakukan secara tidak langsung dari perspektif pengguna atau sudut pandang dokumen (Song et al, 2008).

Rekomendasi tag dapat dilakukan secara manual atau menggunakan autotag, yaitu pemberian tag secara otomatis dengan menggunakan suatu metode atau konsep pembelajaran tertentu seperti metode statistik dan text mining. Sistem rekomendasi tag

secara otomatis memberikan kemudahan dalam memberikan rekomendasi tag

terhadap informasi yang akan dipublikasikan terutama jika informasi tersebut memiliki ukuran yang besar atau cakupan yang luas. Selain itu, sistem rekomendasi

tag secara otomatis juga akan menghemat penggunaan waktu dalam pemberian tag. Diharapkan rekomendasi yang diberikan dapat membantu pengguna dalam mengambil keputusan pemberian tag pada objek yang akan dipublikasikan sehingga nantinya dapat memudahkan dalam peroses filterasi objek tersebut ataupun objek lain yang memiliki kesamaan dengan objek tersebut.

Dari segi perilaku pengguna, sistem tag dapat diklasifikasikan menjadi 3, yaitu

self-tagging, permission-based dan free-for-all. Pada self-tagging, pengguna hanya menandai konten yang mereka ciptakan untuk pengambilan pribadi di masa depan, contohnya seperti situs facebook (http://www.facebook.com/) dan YouTube (http://www.youtube.com/). Permission-based menetapkan berbagai tingkat izin untuk pemberian tag, contohnya seperti situs Flickr (http://www.flickr.com/). Kedua bentuk penandaan tersebut digolongkan sebagai ‘narrow folksonomies’ atau

folksonomi sempit dan tidak mendukung atau tidak termasuk ke dalam collaborative tagging. Free-for-all memungkinkan pengguna untuk menandai setiap item dan merupakan sistem collaborative tagging, contohnya seperti situs Yahoo! MyWeb (http://myweb.yahoo.com/). Free-to-all tagging juga dikenal sebagai ‘broad folksonomy’ atau folksonomi luas (Ji et al, 2007).

2.2 Text Mining

Text mining (penambangan teks) bisa secara luas didefinisikan sebagai proses pengetahuan intensif dimana pengguna berinteraksi dengan koleksi dokumen dari waktu ke waktu dengan menggunakan seperangkat alat analisis. Dalam kaitannya dengan data mining, text mining berusaha untuk mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi dari pola-pola yang menarik. Namun dalam text mining, sumber-sumber data adalah koleksi dokumen. Dan


(21)

pola-pola menarik tersebut tidak ditemukan diantara catatan database yang sudah diformalisasi melainkan dalam data tekstual yang tidak terstruktur di dalam koleksi dokumen-dokumen tersebut (Feldman et al, 2007).

Sama sepertihalnya data mining, text mining adalah salah satu bagian lain dari

Knowledge Discovery. Text Mining sering juga disebut dengan Text Data Mining

(TDM) atau Knowledge Discovery in Textual Database (KDT). Metode ini digunakan untuk menggali informasi dari data-data dalam bentuk teks seperti buku, makalah, paper, dan lain sebagainya. Secara umum text mining memiliki definisi ‘menambang’ data yang berupa teks dimana sumber data biasanya didapatkan dari dokumen, dan tujuannya adalah mencari kata-kata yang dapat mewakili isi dari dokumen sehingga dapat dilakukan analisa keterhubungan antar dokumen (Anggaradana, 2013).

Hal yang membedakan data mining dengan text mining adalah proses analisis terhadap suatu datanya. Data Mining atau Knowledge Discovery in Database (KDD) adalah proses untuk menemukan pengetahuan dari sejumlah besar data yang disimpan baik di dalam databases, data warehouses atau tempat penyimpanan informasi lainnya. Sedangkan untuk text mining sering disebut dengan Keyword-Based Association Analysis. Keyword-BasedAssociation Analysis merupakan sebuah analisa yang mengumpulkan keywords atau terms (istilah) yang sering muncul secara bersamaan dan kemudian menemukan hubungan asosiasi dan korelasi diantara

keywords atau terms itu (Kurniawan et al, 2009).

Secara garis besar dalam melakukan implementasi text mining terdiri dari dua tahap besar yaitu pre-processing dan processing (Anggaradana, 2013).

2.2.1 Pre-Processing

Tahap pre-processing adalah tahap dimana aplikasi melakukan seleksi data yang akan diproses pada setiap dokumen. Setiap kata akan dipecah-pecah menjadi struktur bagian kecil yang nantinya akan mempunyai makna sempit. Ada beberapa hal yang perlu dilakukan pada tahap pre-processing ini, yaitu Tokenizing, Filtering,dan

Stemming.

a. Tokenizing

Tokenizing atau parsing adalah sebuah proses yang dilakukan sesorang untuk menjadikan sebuah kalimat menjadi lebih bermakna atau berarti dengan cara


(22)

memecah kalimat tersebut menjadi kata-kata atau frase-frase. Untuk beberapa kasus, pada tahap ini tindakan yang dilakukan adalah to Lower Case, dengan mengubah semua karakter huruf menjadi huruf kecil. Kemudian, dilakukan tahap

tokenizing yaitu merupakan proses penguraian abstrak yang semula berupa kalimat-kalimat berisi kata-kata dan tanda pemisah antar kata seperti titik (.), koma (,), spasi dan tanda pemisah lain menjadi kumpulan kata-kata saja baik itu berupa kata penting maupun kata tidak penting (Anggaradana, 2013).

b. Filtering atau Seleksi Fitur

Tahap filtering adalah tahap mengambil kata-kata penting dari hasil token. Dimana dalam tahap ini bisa digunakakan algoritma stoplist (membuang kata yang kurang penting) atau wordlist (menyimpan kata penting). Dalam tahap ini penulis menggunakan algoritma stoplist. Stoplist / stopword adalah kata-kata yang tidak deskriptif yang dapat dibuang. Contoh stopwords adalah “yang”, “dan”, “di”,

“dari” dan seterusnya. Proses ini akan menghasilkan daftar istilah beserta informasi tambahan seperti frekuensi dan posisi yang akan digunakan dalam proses selanjutnya (Anggaradana, 2013).

c. Stemming

Tahap stemming adalah tahap mencari root kata dari tiap kata hasil filtering. Pada tahap ini dilakukan proses pengembalian berbagai bentukan kata ke dalam suatu representasi yang sama. Atau dengan kata lain pada tahap ini dilakukan proses penghilangan prefiks dan sufiks dari query dan istilah-istilah yang dihasilkan dari proses filtering. Stemming dilakukan atas dasar asumsi bahwa kata-kata yang memiliki stem yang sama dianggap memiliki makna yang serupa sehingga pengguna tidak keberatan untuk memperoleh dokumen-dokumen yang di dalamnya terdapat kata-kata dengan stem yang sama dengan query-nya (Anggaradana, 2013). Pada intinya proses ini mempunyai dua tujuan, yaitu (1) dalam hal efisiensi,

stemming mengurangi jumlah kata-kata unik dalam indeks sehingga mengurangi kebutuhan ruang penyimpanan dan mempercepat proses pencarian. (2) dalam hal keefektifan, stemming mengurangi recall dengan mengurangi bentuk-bentuk kata ke bentuk dasarnya atau stem-nya. Sehingga dokumen-dokumen yang menyertakan suatu kata dalam berbagai bentuknya memiliki kecenderungan yang sama untuk


(23)

ditemukembalikan. Hal tersebut tidak akan diperoleh jika tiap bentuk suatu kata disimpan secara terpisah dalam indeks.

Beberapa algoritma yang telah dikembangkan untuk proses stemming

diantaranya Algoritma Porter (Bahasa Indonesia dan Inggris) dan Algoritma Nazief & Adriani untuk teks berbahasa Indonesia (Nazief et al, 1996). Dalam hal ini, Penelitian yang dilakukan Agusta (2009) menunjukkan algoritma Nazief & Adriani memiliki tingkat akurasi yang lebih tinggi dalam proses stemming untuk bahasa Indonesia dibandingkan algoritma Porter.

2.2.2 Processing

Tahap yang kedua adalah melakukan processing. Tahap ini merupakan tahap inti dimana setiap kata akan diolah dengan algoritma tertentu, yang dalam penelitian ini akan digunakan metode TF-IDF. Tahap ini sering disebut juga dengan Analizing. Dalam tahap processing, dokumen akan dianalisa oleh aplikasi. Secara umum terdapat dua jenis metode yaitu metode yang tidak melakukan perhitungan bobot kalimat dan yang melakukan perhitungan bobot kalimat. Metode yang tidak menghitung bobot kalimat hanya mengambil beberapa kalimat awal dan akhir. Metode-metode yang menghitung bobot kalimat menggunakan bobot term (kata maupun pasangan kata) dari setiap term yang terdapat dalam kalimat tersebut (Anggaradana, 2013).

Dalam penelitian ini digunakan metode yang menghitung bobot (term), dimana bobot term diperoleh dengan melakukan perhitungan terhadap Term Frequency dan

Inverse Document Frequency dari term tersebut yaitu TF-IDF. Hasil perhitungan dari

TF-IDF akan menghasilkan beberapa rekomendasi tag yang berasal dari dalam artikel tersebut. Selanjutnya digunakan teknik Collaborative tagging untuk mencari rekomendasi tag dari objek yang sudah dipublikasi sebelumnya.

2.3 Algoritma Nazief & Adriani

Algoritma Nazief & Adriani adalah algoritma yang dikembangkan oleh Bobby Nazief dan Mirna Adriani. Algoritma ini dapat dimanfatkan untuk stemming bahasa Indonesia. Adapun flow chart algoritma Nazief & Adriani dapat dilihat pada gambar 2.2.


(24)

Gambar 2.2 Flow Chart Algoritma Nazief & Adriani (Nazief et al, 1996)

Proses stemming pada teks berbahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilangkan (Nazief et al, 1996).

Untuk mengoptimalkan pemotongan sufiks, prefiks, dan konfiks pada kata digunakan tabel kombinasi kata awalan dan akhiran yang tidak diijinkan dan dapat dilihat pada tabel 2.1.


(25)

Tabel 2.1 Tabel kombinasi awalan akhiran yang tidak diijinkan (Adriani, et al. 2007)

Awalan Akhiran yang tidak diijinkan

be- -i

di- -an

ke- -i, -kan

me- -an

se- -i, -kan

Adapun pemotongan kata dasar dibuat berdasarkan aturan peluruhan kata dasar seperti terlihat pada tabel 2.2.

Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani, et al. 2007)

Aturan Awalan Peluruhan

1 berV… Ber-V.. | be-rV…

2 belajar bel-ajar

3 berC1erC2 be-C1erC2.. dimana C1 !={‘r’ | ‘l’}

4 terV… ter-V.. | te-rV…

5 terCer… ter-Cer.. dimana C!==’r’

6 teC1erC2 te-C1erC2… dimana C1!=’r’

7 me{l|r|w|y}V… me-{l|r|w|y}V…

8 mem{b|f|v}… mem-{b|f|v}…

9 mempe… mem-pe…

10 mem{rV|V}… me-m{rV|V}…|me-p{rV|V}…

11 men{c|d|j|z}… men-{c|d|j|z}…

12 menV… me-nV…|me-tV…

13 meng{g|h|q|k }… meng-{g|h|q|k}…

14 mengV… meng-V…|meng-kV…

15 mengeC menge-C

16 menyV… me-ny.. | meny-sV…

17 mempV… mem-pV…

18 pe{w|y}V… pe-{w|y}V…

19 perV… per-V…|pe-rV…

20 pem{b|f|v}… pem-{b|f|v}…

21 pem{rV|V}… pe-m{rV|V}…|pe-p{rV|V}

22 pen{c|d|j|z}… pen-{c|d|j|z}…


(26)

Tabel 2.2 Tabel aturan peluruhan kata dasar (Adriani, et al. 2007)(Lanjutan)

Aturan Awalan Peluruhan

24 peng{g|h|q} peng-{g|h|q}

25 pengV peng-V | peng-kV

26 penyV pe-nya|peny-sV

27 pelV pe-lV…; kecuali untuk kata "pelajar" 28 PeCP pe-CP…dimana C!={r|w|y|l|m|n} dan P!='er' 29 perCerV per-CerV… dimana C!={r|w|y|l|m|n}

Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan berikut:

1. Aturan untuk reduplikasi

a. Jika kedua kata yang dihubungan penghubung adalah kata yang sama maka

root wordadalah bentuk tunggalnya, contoh “anak-anak” root word-nya adalah “anak”.

b. Kata lain misalnya “bolak-balik”, “berbalas-balasan” dan “seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word

yang sama yaitu “balas”, maka root word “berbalas-balasan” adalah “balas”. Sebaliknnya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word

yang berbeda, maka root word-nya adalah “bolak-balik”. 2. Tambahan untuk awalan dan akhiran serta aturannya.

a. Tipe awalan “mem-”, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”.

b. Tipe awalan “meng-”, kata yang diawali dengan awalan “mengk-” memiliki tipe awalan “meng-”.

2.4 Term Frequency-Invers Document Frequency (TF-IDF)

TF-IDF (Term Frequency-Inverse Document Frequency) merupakan metode statistik

numeric yang mencerminkan seberapa pentingnya sebuah kata dalam sebuah dokumen atau korpus (Rajaraman et al, 2011). Hal ini sering digunakan sebagai faktor bobot dalam pencarian informasi dan penambangan teks (text mining). Nilai TF-IDF


(27)

pada dokumen, tetapi diimbangi dengan frekuensi kata dalam korpus. Variasi dari skema pembobotan TF-IDF sering digunakan oleh mesin pencari sebagai alat utama dalam mencetak nilai (scoring) dan peringkat (ranking) sebuah relevansi dokumen yang diberikan user.

TF-IDF pada dasarnya merupakan hasil dari perhitungan antara TF (Term Frequency) dan IDF (Inverse Document Frequency). Banyak cara untuk menentukan nilai yang tepat dari kedua statistik yang ada. Dalam kasus term frequency tf (t, d), cara yang paling sederhana adalah dengan menggunakan raw frequency di dalam dokumen, yaitu berapa kali term t muncul di dokumen d. Jika menyatakan raw frequency t sebagai f (t,d), maka skema tf yang sederhana adalah tf (t, d) = f (t,d). Kemungkinan lain meliputi (Manning, et al. 2008):

- frekuensi Boolean : tf (t,d) = 1 jika t muncul di d dan 0 kebalikannya; - skala frekuensi logaritmik : tf (t,d) = log (f (t ,d) + 1);

- penambahan frekuensi, untuk mencegah bias terhadap dokumen lagi, misalnya raw frequency dibagi dengan raw frequency maksimum dari setiap term di dalam dokumen.

� , � = , +�� {� , � ∶ ∈ � ., × � , �

IDF (Inverse Document Frequency) merupakan ukuran apakah term itu umum atau langka di semua dokumen. Hal ini diperoleh dengan membagi jumlah dokumen di dalam korpus dengan jumlah dokumen yang berisi term, dan kemudian mengambil logaritma dari hasil bagi tersebut.

��� , � = log| { � ∈ � ∶ ∈ � | .|�|

dimana:

- |�| : kardinalitas dari N, atau jumlah total dokumen di dalam korpus.

- | { � ∈ � ∶ ∈ � | : jumlah dokumen dimana term t muncul (misalnya

� , � ≠ ). Jika term tidak ada di dalam korpus, hal ini akan mengacu kepada division-by-zero. Oleh karena itu, biasanya untuk menyesuaikannya rumus menjadi:


(28)

Secara matematis fungsi dasar log tidak lah penting dan merupakan faktor pengali terhadap hasil keseluruhan. Maka TF-IDF dapat dirumuskan menjadi:

���� , �, � = � , � × ��� , � .

2.5 Collaborative Tagging

Collaborative tagging menawarkan alternatif rekomendasi tag dan filterasi tag yang telah banyak digunakan. Collaborative tagging digambarkan seperti berbagai pengetahuan antara objek satu dengan berbagai objek lainnya. Collaborative tagging

memungkinkan pengguna untuk berbagi tag pada objek mereka dengan objek pengguna lain. Teknik ini juga memungkinkan pengguna untuk menandai objek mereka secara bebas dan berbagi konten, sehingga para pengguna dapat mengkategorikan informasi dengan bebas, dan mereka dapat menelusuri kategori informasi yang dimiliki oleh pengguna lain. Tag klasifikasi, dan konsep menghubungkan set tag antara server web/blog, telah menyebabkan munculnya klasifikasi folksonomi pada objek-objek di internet. Mereka cenderung menggunakan

tag yang ada untuk dengan mudah membentuk koneksi antar objek dengan tag yang berkaitan (Lee, et al, 2008).

Collaborative tangging memungkinkan rekomendasi tag untuk objek baru yang akan publikasikan dapat berasal dari objek itu sendiri dan atau dari objek yang mirip. Pada metode collaborative tagging, tag yang berasal dari objek tersebut (Obaru)

akan dicocokkan dengan tag pada objek lainnya yang telah diterbitkan (Olama).

Tingkat kemiripan tag pada Obaru dengan Olama harus ditetapkan terlebih dahulu. Jika

tingkat kemiripan yang ditentukan telah melewati ambang batasnya, maka tag-tag

pada Olama (selain tag yang sama antar Obaru dan Olama) akan diikutsertakan menjadi

rekomendasi tag pada Obaru (tag recommendation = Obaru  Olama). Semakin tinggi

derajat tingkat kemiripan yang ditentukan, maka semakin akurat rekomendasi tag

yang akan didapatkan dan berlaku sebaliknya.

Pada penelitian ini, collaborative tag yang digunakan ialah menggunakan tag similarity yaitu pengukuran kesamaan dengan menghitung persentase kemiripan tag

hasil ekstraksi dari arikel yang baru dengan tag-tag berita lainnya di database. Persentase kemiripan berita berdasarkan tag pada penelitian ini adalah  50%.


(29)

2.6 Penerapan TF-IDF dan Collaborative Tagging pada Rekomendasi Tag

Secara umum, tahap-tahap dalam membentuk sistem rekomendasi tag pada penelitian ini mengggunakan metode text-mining dimana tahap stemming-nya menggunakan algoritma Algoritma Nazief & Adriani, tahap processing-nya menggunakan metode

TF-IDF. Untuk meningkatkan kemampuan sistem dalam memberikan rekomendasi, digunakan Collaborative tagging agar rekomendasi tag dapat berasal dari berita lain yang pernah diterbitkan sebelumnya.

Adapun langkah-langkah pada sistem rekomendasi tag yang akan dikembangkan adalah sebagai berikut:

1. Masukkan text berita yang akan dibuat rekomendasinya.

2. Lakukan tokenizing pada text yang telah dimasukkan sehingga setiap kalimat pada text menjadi satuan kata-kata atau frase-frase. Kemudian sistem akan merubah semua karakter huruf menjadi huruf kecil melalui proses toLowerCase.

3. Lakukan filtering pada kata-kata atau frase-frase yang telah ada dengan menggunakan metode stoplist (membuang kata-kata yang kurang penting seperti kata sambung, kata depan, dan lain sebagainya).

4. Lakukan stemming pada setiap kata (k) menggunakan Algoritma Nazief & Adriani untuk teks berbahasa Indonesia yang berfungsi menemukan kata dasar dari setiap kata masukan. Untuk k =1 hingga k=n dilakukan langkah berikut:

4.1Samakan kata atau frase dengan kata-kata di dalam kamus dimana jika ditemukan maka diasumsikan kata tersebut adalah kata dasar atau root word,

jika tidak maka tahap selanjutnya dilakukan.

4.2Lakukan Infection suffixes(“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah”, atau “-pun”) maka langkah ini diulangi untuk menghapus Passive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.

4.3Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan dikamus, maka diasumsikan kata tersebut adalah root word. Jika tidak maka dilanjutkan ke langkah 4.3.1.

4.3.1 Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah“ -k”, maka “-k” juga akan ikut dihapus. Jika kata tersebut ditemukan dalam kamus, maka diasumsikan kata tersebut adalah root word. Jika tidak, akan dilanjutkan ke langkah 3b.


(30)

4.3.2 Akhiran yang dihapus (“i”, “-an” atau “-kan”) dikambalikan, lanjut ke tahap 4.4.

4.4Hapus derivation prefix(“di-”, “ke-”, “se-”, “te-”, “be-” dan “me-”). Jika pada langkah 3 ada suffix yang dihapus maka dilanjutkan ke langkah 4.4.1, jika tidak pergi ke langkah 4.4.2.

4.4.1 Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan seperti pada tabel 2.1. Jika ditemukan, maka diasumsikan kata tersebut adalah

root word, jika tidak lanjut ke langkah 4.4.2.

4.4.2 Fori=1 to 3, tentukan tipe awalan kemudian hapus awalan dan lakukan perubahan kata dasar sesuai tabel 2.2. Jika root word belum ditemukan lakukan langkah 5, jika sudah maka diasumsikan kata tersebut adalah

root word. Catatan: jika awalan kedua dan awalan pertama adalah sama maka kata tersebut adalah root word.

4.5Lakukan recoding.

4.6Jika semua langkah selesai tetapi masih tidak berhasil, maka kata awal diasumsikan sebagai root word. Jika root word merupakan kata reduplikasi seperti “anak-anak”, “bolak-balik”, atau “berbalas-balasan”, maka kata tersebut harus mengikti aturan reduplikasi.

4.7k+1, ulangi proses stemming untuk kata berikutnya.

5. Setelah hasil stemming kata telah didapatkan, tentukan bobot tiap-tiap kata dengan menggunakan metode TF-IDF sebagai berikut:

5.1 Hitung TF yaitu frekuensi kemunculan kata term (t) pada text berita (d). 5.2Hitung invers document frequency (idf) yaitu dengan persamaan berikut:

idf = Log10(N/(1+df) ) (2.5) dimana:

N = merupakan jumlah seluruh berita yang ada pada tabel berita.

df = jumlah kemunculan kata (term) terhadap daftar isi berita di database. 5.3Hitung bobot (W) masing-masing dokumen dengan persamaan 2.6.

Wt= tf * idf (2.6)

dengan :

t = kata(term) ke –t

tf = term freqency

W = bobot kata(term) ke- t


(31)

5.4Lakukan proses pengurutan (sorting) nilai kumulatif dari W untuk setiap kata dan mengambil 6 kata dengan bobot terbesar akan dijadikan sebagai hasil rekomendasi tag.

6. Hasil rekomendasi tag dari proses TF-IDF akan dicari kemiripannya dengan berita lainnya yang telah diterbitkan dan disimpan pada Tabel Berita di database dengan langkah berikut:

6.1Persentasi kemiripan berita dihitung dengan persamaan 2.7.

Kpn = (%kemiripan * hslTfidf)/100 (2.7) Dimana:

Kpn = Jumlahkemiripan tag, %kemiripan = Persentase kemiripan tag,

hslTfidf = Jumlah rekomendasi tag hasil TF-IDF (hasil Langkah 5.4). 6.2Untuk setiap berita yang telah di-upload pada kategori yang sama dan

memiliki jumlah kemiripan tagKpn maka tag pada berita lainnya akan ditambahkan ke dalam rekomendasi tag otomatis.

2.7 Teknik Rekomendasi Tag Terdahulu

Penelitian mengenai rekomendasi tag telah banyak dilakukan dengan berbagai algoritma guna mendapatkan hasil rekomendasi yang lebih relevan dan efektif.

Muflikah, Fadilah, dan Rido (2013) menggunakan Algoritma Latent Semantic Indexing untuk sistem rekomendasi tag pada dokumen blog. Adapun langkah-langkah rekomendasi tag dengan menggunakan Algoritma Latent Semantic Indexing yang mereka lakukan adalah sebagai berikut:

1. Parsing Dokumen Blog berformat .html ke .txt.

2. Proses Training Data meliputi pengelompokan tag dan pembentukan Graf term frequency (TF) dan first occurrence (FO).

3. Preprocessing dalam sistem ini meliputi tokenizing, filtering, perhitungan term frequency (TF) dan perhitungan first occurrence (FO). Stemming tidak diperlukan karena sifat dari tag yang bebas dari kaidah tata bahasa. Perhitungan TF dan FO digunakan untuk pembobotan kata. FO adalah menyatakan jarak posisi kemunculan kata pertama pada dokumen. Hal ini didasarkan pada asumsi bahwa kata-kata penting yang menjadi topik isi dokumen berada pada beberapa paragraf pertama.


(32)

4. Tahap ekstraksi TI merupakan proses untuk mendapatkan sekumpulan kata kunci TI sebanyak jumlah input TI dari user. TI yang diambil adalah sebanyak m kata dengan bobot score terbesar. Semakin tinggi nilai TF dan semakin rendah nilai FO maka semakin besar kemungkinan kata tersebut merupakan kata kunci.

5. Teknik dekomposisi matriks dengan Singular Value Decomposition (SVD). SVD berkaitan erat dengan singular value atau nilai singular dari sebuah matriks yang merupakan salah satu karakteristik matriks.

6. Ekstraksi tag (Tag-Out) menggunakan algoritma Latent Semantic Indexing (LSI) dengan langkah kerja sebagai berikut:

 Matriks berukuran � dibentuk pada saat proses dokumen uji, setelah tahap ekstraksi TI. Sebanyak m jumlah TI dicari pasangan co-occurrence-nya di dalam graf. Maka didapatkan sebanyak s jumlah TO yang paling sedikit memiliki nilai co-occurrence 1 dengan paling sedikit 1 buah TI.

 Selanjutnya dibentuk matriks ���� yang berisikan bobot untuk m TI dan s TO yang memiliki co-occurrence pada bipartite graph (bigraf). Bigraf dibentuk saat training data.

 Kemudian dilakukan reduksi matriks menjadi Uk, Vk, dan Sk. Baris-baris pada

matriks Vk adalah kumpulan dari vektor eigen, maka tiap baris matriks Vk

merupakan koordinat vektor masing-masing dokumen.

 Tahap terakhir adalah mengukur tingkat kesamaan (similarity) antara vektor

query dan masing-masing vektor dokumen menggunakan rumus perhitungan

cosine similarity.

 Setelah didapatkan hasil kedekatan masing-masing vektor kemudian dilakukan pengurutan secara descending hasil similarity antara query dan semua dokumen. Semakin besar nilai similarity artinya semakin dekat hubungan antara TO dengan m TI yang telah dipilih pada proses ekstraksi keyword. 7. Metode Evaluasi dengan ukuran evaluasi terhadap sistem rekomendasi tag adalah

sebagai berikut:

Top-k accuracy. Prosentase dari dokumen yang rekomendasi tag-nya benar paling sedikit 1 dari sejumlah k tag teratas yang direkomedasikan (top-kth tag).

Exact-k Accuracy. Prosentase banyaknya dokumen yang hasil rekomendasi

tag-nya benar sebanyak k dari sejumlah k tag teratas yang direkomendasikan (exact-kth tag)


(33)

Tag-recall. Prosentase hasil tag rekomendasi yang benar dari seluruh tag yang telah diberikan oleh user. Tag rekomendasi yang benar adalah tag yang sama antara tag yang dihasilkan oleh program dan tag yang dibuat oleh user.

Tag-precision. Prosentase hasil tag rekomendasi yang benar dari seluruh tag

yang dihasilkan oleh algoritma program.

F-Measure merupakan gabungan antara precision dan recall.

Pada tahun 2013, Purbasari, Cai, Lao, dan Al-Rawali melakukan penelitian mengenai rekomendasi tag pada situs berbagi gambar di Flikr®. Langkah-langkah yang dilakukan oleh dalam penelitian mereka adalah sebagai berikut:

1. Pengambilan tag dari Flickr®. Proses ini menggunakan API dari Flickr® dengan menggunakan implementasi Java sebagai bahasa pemrogramannya.

2. Lakukan crawling pada semua gambar di Flickr yang memiliki tag tersebut. Untuk setiap gambar yang ditemukan, diambil seluruh tag-nya dan dilakukan

crawling kembali untuk mengambil tag dari gambar lain yang mengandung tag

tersebut. Sejumlah gambar yang tidak memiliki tag tidak disimpan dalam

database.

3. Lakukan iterasi selama stopping condition masih belum terpenuhi. Untuk menentukan stopping condition. Jika iterasi sudah melebihi maksimal iterasi maka pelatihan dihentikan. Bila nilai MAPE kurang dari atau sama dengan error tolerance maka pelatihan dihentikan.

4. Kegiatan pra-proses pada tag, yang meliputi pengecekan dengan kamus untuk menyaring kata yang berbahasa Inggris saja, Pembuangan tag yang memiliki frekuensi dengan frekuensi tertinggi maupun terendah,

5. Pembuatan matriks untuk memetakan tag dengan gambar. 6. Proses clustering untuk memudahkan proses mining tag.

7. Pencarian association rule pada setiap cluster untuk menghasilkan kombinasi tag

yang sering muncul bersamaan. Algoritma Apriori mencari pasangan tag yang paling sering muncul bersamaan dengan menetapkan batasan confidence dan

minimum support.

8. Perekomendasian tag. Tag yang direkomendasikan didasarkan pada hasil

association rule yang ditemukan pada langkah sebelumnya. Hanya rule yang kuat yang akan dipilih untuk menghasilkan rekomendasi tag dari query tag yang dimasukkan oleh pengguna.


(34)

9. Pengambilan kembali gambar yang memiliki tag yang sama atau yang irekomendasikan. Selain menghasilkan output berupa tag hasil rekomendasi, sistem juga akan menampilkan sejumlah gambar dari Flickr yang memiliki tag

yang direkomendasikan tersebut. Ini juga dilakukan melalui Flickr API dengan menggunakan metode SEARCH pada interface PhotoInterface.

Adapun ringkasan beberapa penelitian terdahulu yang telah dilakukan untuk memberikan rekomendasi tag pada beberapa masalah yang berbeda dapat dilihat pada tabel 2.3.

Tabel 2.3 Penelitian Sebelumnya

No Judul Pengarang Tahun Kelebihan Kekurangan

1. TagAssist: Automatic tag Suggestion for Blog Posts

Sanjay C. Sood dan Kristian J. Hammond

2007 Nilai Precision

mencapai 42.10%

Tag tidak memiliki

komponen user

feedback

2. Automatic tag Recommendation

for the Web 2.0 Blogosphere

Using Collaborative

tagging and Hybrid ANN Semantic Structures

Sigma On, Kee Lee dan

Andy Hon Wai Chun

2007 Tag-tag yang berhubungan dengan

semantic content akan diberikan walaupun sudah pernah dipakai pada blog sebelumnya

Parameter dan algoritma yang

digunakan masih dalam proses pengembangan

3. A Content-Based Method to Enhance tag

Recommendation

Yu-Ta Lu, Shoou-I Yu, Tsung-Chieh Chang, Jane Yung-jen

Hsu

2009 Nilai Precision

rekomendasi tag

mencapai 59% tervalidasi oleh 5 fold cross validation

Tag yang

direkomendasikan merupakan tag-tag

yang tergolong populer dan kurang informatif dan spesifik


(35)

Tabel 2.3 Penelitian Sebelumnya (Lanjutan)

No Judul Pengarang Tahun Kelebihan Kekurangan

4. Sistem

Rekomendasi tag

Pada Dokumen Blog

Menggunakan

Latent Semantic Indexing

Lailil Muflikhah, Nurul Fadilah, Achmad Ridok

2013 Rekomendasi tag yang diberikan sebanyak 5 buah tag. Metode LSI digunakan untuk mencari hubungan latent antara Tag-In

(TI) dan Tag-Out (TO) dalam setiap dokumen. Hasil terbaik F-Measure dicapai pada saat TI=2, yaitu 0.5.

n/a

5. Aplikasi

Rekomendasi tag

Pada Situs Berbagi Gambar Flickr®

Intan Yuniar Purbasari, Hongyun Cai, Angeli Diane Lao, Iman

Mohamed Al-Rawahi

2013 Teknik yang digunakan adalah Asossiation Rule Mining dan menggunakan API dari Flickr® untuk

crawling semua

gambar di Flickr® yang memiliki tag yang sesuai dengan tag yang diinput.

Dapat memperoses data dengan jumlah data yang besar (sekitar 8000 data) dan jumlah kluster data yang besar.

Aplikasi rekomendasi

tag masih terbatas pada topik “animal” saja. Efisiensi proses

Mining cukup rendah. Proses pemberian rekomendasi tag

berjalan lambat. Tidak ada perhitungan tingkat keakuratan

rekomendasi tag yang dihasilkan.


(36)

BAB 3

ANALISA DAN PERANCANGAN SISTEM

Bab ini secara garis besar membahas rekomendasi tag pada berita online

menggunakan TF-IDF dan Collaborative tagging dan tahap-tahap yang akan dilakukan dalam perancangan sistem yang akan dibangun.

3.1 Identifikasi Masalah

Berita merupakan suatu kebutuhan pokok masyarakat untuk memperolah informasi dimana dengan meningkatnya kemajuan teknologi dan semakin mudahnya berbagi informasi, masyarakat dapat mengakses dan menyebarkan berita secara online dengan mudah. Seiring semakin banyaknya berita yang dipublikaskan secara online, maka dibutuhkan suatu sistem pengaturan berita berdasarkan kesamaan berita guna memudahkan dalam pencarian berita-berita yang sama atau berita yang berkaitan. Aplikasi Web 2.0 memperkenalkan social tagging sebagai salah satu cara mempermudah pencarian berita.

Dengan social tagging, pengguna dapat memberikan label keterangan pada suatau berita online dengan label kata kunci yang bebas (tag) (Guan, et al 2009). Pemberian tag juga dapat dilakukan dengan menggunakaan sistem rekomendasi tag

otomatisatau sistem autotag ketika suatu berita akan diterbitkan. Sistem rekomendasi

tag otomatis dapat membantu pengguna dalam pemberian tag dengan memberikan rekomendasi tag yang relevan atas berita yang akan dipublikasikan. tag tersebut nantinya dapat terhubung dengan tag pada berita lain yang memiliki kesamaan tag.

Tag bisa dikatakan berada dalam tipe klasifikasi bottom-up, berbeda dengan hierarki yang ada di klasifikasi top-down dimana pada sistem hierarki tradisional (taxonomy), perancang menetapkan sejumlah istilah yang digunakan untuk melakukan klasifikasi dan hanya ada satu isitilah yang benar untuk mengklasifikasikan setiap item (Lee et al, 2008).


(37)

Dalam sistem penandaan atau tagging, ada banyak cara yang tidak terbatas dalam mengklasifikasikan item yang ada dan tidak ada kata salah pilih karena item-item yang ada tidak berada di dalam sebuah kategori, satu item-item dapat memiliki beberapa tag yang berbeda (Lee et al, 2008). Untuk menghasilkan tag rekomendasi yang relevan dengan berita yang akan dipublikasikan dan atau memiliki relevansi yang baik dengan tag pada berita lainnya, dibutuhkan suatu metode atau tools analisis

tertentu yang dapat ‘menggali’ informasi pada suatu teks berita atau sekumpulan dokumen berita. Salah satu konsep analisis yang sering digunakan adalah dengan menggunakan text mining. Tujuan dari text mining adalah untuk mendapatkan informasi yang berguna dari sekumpulan dokumen (Falani, 2011).

3.2 Data yang Digunakan

Pada penelitian ini, data testing dan berita – berita yang telah dipublikasikan sebelumnya berasal dari 3 kategori, yaitu ekonomi, olahraga dan nasional. Sedangkan data masukan yang akan digunakan pada penelitian ini dapat dibagi menjadi 2 yaitu: 1. Teks berita yang akan dipublikasikan. Pada tabel 3.1 merupakan berita yang akan

diuji pada penelitian ini. Setiap berita yang dimasukkan akan mengalami tahap TF-IDF dan Collaborative tagging.

Tabel 3.1 Data Testing

Judul Berita Jlh

Kata Sumber/ Tanggal Terbit Kategori

Asosiasi Tuna: Jika "Transshipment" Boleh 172 Kompas/ 7 Maret 2015 Ekonomi IHSG Berakhir Melemah 70,15 Poin 259 Kompas/ 9 Maret 2015 Ekonomi Presiden dan Kurs Rupiah 848 Kompas/ 9 Maret 2015 Ekonomi Nasib Lee Chong Wei Ditentukan 11 April 163 Kompas/ 10 Maret 2015 Olahraga Rossi Luncurkan Sky Racing Team VR46 untuk

Moto3 2015

187 Kompas/5 Maret 2015 Olahraga Laga Semifinal Sisakan Kebingungan bagi Lin

Dan

197 Kompas/7 Maret 2015 Olahraga Gelombang Tinggi karena Siklon Tropis Nathan,

Nelayan Tak Bisa Melaut Jumat

342 Kompas/13 Maret 2015 Nasional Menengok Tiga Gunung Api 'Siaga', dan Alam

Indah Nan Subur di Sulut

968 Kompas/9 Maret 2015 Nasional Basarnas Resmi Hentikan Pencarian Korban

AirAsia QZ8501

176 Kompas/3 Maret 2015 Nasional

Pada tahap TF-IDF maksimal pengambilan kata adalah dari 10 hingga 2 karakter atau kata. Sedangkan pada tahap collaborative tagging, similarity tag yang akan diuji ialah dari 20% hingga 60%. Dari rekomendasi tag yang dihasilkan, akan


(38)

diambil tag yang relevan dan dihitung persentase relevansi antara hasil rekomendasi dan tag relevan yang diambil.

2. Teks-teks berita yang telah dipublikasikan sebelumnya. Tag pada berita baru akan dicocokkan dengan tag pada berita lainnya menggunakan collerative tag sehingga di dapat korelasi antara tag-tag yang berkaitan. Tabel 3.2 berisi daftar berita yang telah dipublikasikan sebelumnya.

Tabel 3.2 Data Berita yang Telah Dipublikasikan

No Judul Berita Kategori Jumlah Kata

Sumber / Tanggal

Terbit

Tag yang digunakan

1 Yuddy: Lihat Menterinya di Ekonomi, Tidak Ada Lagi yang Duduk di Kelas Bisnis

Ekonomi 249 Kompas/7 Maret 2015

Yuddy, Ekonomi, Revolusi, Menteri, Bisnis, Jokowi, BUMN, Kemenpan-RB

2 Laba Empat Bank Kakap Masih Gemuk

Ekonomi 308 Kompas/6 Maret 2015

Bank, Laba, Kredit, Aset, Likuiditas, Bank Mandiri, BCA, BNI 3 Batu Akik di Atas Harga

Rp 100 Juta Akan Dikenai Pajak

Ekonomi 221 Kompas/6 Maret 2015

Batu, Akik, Pajak, PPH, Pemerintah, Oktria, PPnBM 4 Menteri Susi: Penggunaan

Pukat Cincin akan Diatur

Ekonomi 260 Kompas/7 Maret 2015

Ikan, Kapal, Lestari, Rawai, Seine, Pukat, Mentri Susi, Kelautan dan Perikanan, SIPI 5 Baru Rp 150 Triliun,

Transaksi "E-commerce" RI Hanya 2,5 Persen dari China

Ekonomi 189 Kompas/7 Maret 2015

E-commerce,

Transaksi, Nilai, Eudi, China, Indonesia, APBN, DNI,

6 Pertengahan 2015, Toko

Online Harus

Bersertifikat dari Kemenkominfo

Ekonomi 178 Kompas/7 Maret 2015

E-commerce, Kemenkominfo, Sertifikasi, Cybercrime,

Roadmap, Shoppers, Toko Online

7 Melimpah, Cabai Hijau di Bengkulu Jatuh ke Harga Rp 2.000 per kg

Ekonomi 154 Kompas/7 Maret 2015

Cabai, Harga, Murah, Bengkulu, Petani 8 Sentuh Rekor Baru di

Akhir Pekan, IHSG Ditutup di 5.514,78

Ekonomi 277 Kompas/7 Maret 2015

Saham, Dagang, Kuat, Bursa, IHSG, Rekor,

Indeks, Dollar 9 Bankir: Indonesia Masih

Tertinggal dalam Hal Cetak Wirausahawan

Ekonomi 269 Kompas/6 Maret 2015 Profesi, Wirausaha, Wirausahawan, Indonesia, Masyarakat, Bank Mandiri, Expo


(39)

Tabel 3.2 Data Berita yang Telah Dipublikasikan (Lanjutan)

No Judul Berita Kategori Jumlah

Kata

Sumber / Tanggal

Terbit

Tag yang digunakan

10 Pasar Dibanjiri Pasokan, Harga Minyak Dunia

Turun

Ekonomi 306 Kompas/6 Maret 2015

Minyak, Produksi, Rig, AS, OPEC,

Pasar, WTI, Bloomberg 11 Ini Tiga Manuver Besar

Grup Salim Tahun 2015

Ekonomi 350 Kompas/6 Maret 2015

Gula, Group Salim, Roxas, Saham, Dollar, Usaha, Indofood 12 Tekanan Ambil Untung

Masih Membayangi IHSG

Ekonomi 286 Kompas/6 Maret 2015

Variasi, Saham, Sektor, Data, Dagang, AS, IHSG

13 Dollar AS Makin Kuat, Harga Emas Dunia Kembali Melorot

Ekonomi 336 Kompas/6 Maret 2015

Dollar, Emas, Euro, ECB, AS, Indeks, Saham

14 Keuntungan Investasi Primer dan Sekunder

Ekonomi 810 Kompas/6 Maret 2015

Investasi, Saham, Reksa, Primer, Dana, Sekunder, Obligasi 15 Rupiah Masih di Kisaran

13.000

Ekonomi 226 Kompas/6 Maret 2015

Rupiah, Lemah, Dollar, Garuda, BI, AS, Blommberg, Jisdor, Rp, Uang 16 BCA Mulai Memangkas

Suku Bunga Pinjaman

Ekonomi 222 Kompas/6 Maret 2015

Kredit, Sektor, Project, Korporasi, Bunga, BCA, OJK, LDK

17 9 Maret, McDonald Ekonomi 242 Kompas/6 Maret 2015

Mcdonald, Egg Mcmuffin, Restoran, Indonesia, Geratis, Sarapan, McD

18 Kesalahan Restoran Indonesia di Luar Negeri

Ekonomi 213 Kompas/6 Maret 2015

Indonesia, Kuliner, Otentik, Thailand, William Wongso, Restoran, Rumah Makan

19 Ternyata Setruk Belanja di Atas Rp 250.000 Harus Bermeterai Rp 3.000

Ekonomi 219 Kompas/6 Maret 2015

Materai, Setruk, Belanja, Kredit, Ppn, Ritel

20 Susahnya Pungut Pajak dari Batu Akik

Ekonomi 314 Kompas/6 Maret 2015

Akik, Batu, Pajak, Ppn, Pph, PPnBM

21 Chong Wei Mengaku Bahkan untuk Berlatih pun Terasa Berat

Olahraga 206 Kompas/6 Maret 2015

Bwf, Frost, Chong Wei, Malaysia, Bulu Tangkis, Denmark

22 Lewis Hamilton

Sempatkan Hadiri Pekan Fashion

Olahraga 157 Kompas/6 Maret 2015

Lomba, Hamilton, Gp F1, Balap, Mobil-mobil

23 Lin Dan Dibuat

Pontang-panting

Olahraga 152 Kompas/5 Maret 2015


(40)

Tabel 3.2 Data Berita yang Telah Dipublikasikan (Lanjutan)

No Judul Berita Kategori Jumlah

Kata

Sumber / Tanggal

Terbit

Tag yang digunakan

24 Kejutan Berlanjut, Li

Xuerui Tumbang di Babak Kedua

Olahraga 179 Kompas/6 Maret 2015

All England, Tanding, Li, Sun, Tiongkok

25 Taufik Hidayat: Sekarang

Masih Eranya Lin Dan dan Lee Chong Wei

Olahraga 205 Kompas/4 Maret 2015

Taufik, Legenda, Lin Dan, Bulu Tangkis, Gade, Chong Wei

26 Rossi Cemburu kepada

Ducati

Olahraga 322 Kompas/6 Maret 2015

Ducati, Balap, Honda, Rossi, GP15,

MotoGP, valentino rossi, Sirkuit

27 Pulang dari Dubai,

Liliyana Natsir Liburan Natal

Olahraga 417 Tempo Jin Chen, Jakarta, Tante, Bungsu, Putri, Makan, Natal, Liliyana Natsir, Bulutangkis

28 Persebaya Tutup Mulut

Soal Gaji Evan Dimas

Olahraga 194 Tempo Baya, Gaji, Evan,U-19, Timnas, Main, 2013, Klub, Gabung, Fasilitas

29 Lorenzo Ucapkan

Selamat Natal Berbahasa Indonesia

Olahraga 124 Tempo Lorenzo, Akun, Posting-an, Bahasa, Balap, Tulis, Satu, Kunjung, Foto, Next

30 LeBron James Cetak

Triple Double, Cavaliers Menang

Olahraga 122 Tempo Poin, 32, Cetak, Cleveland Cavaliers, Sumbang, Triple, Rebound, Musim, 27, Antar

31 Kalahkan Irak, Korea Selatan ke Final Piala Asia

Olahraga 159 Tempo Korea, Final, Laga, Tim, Menit,

Semifinal, Lee Jung-hyub, Gagal, Ke-20, Berkat

32 Jamu Liverpool, Chelsea Siap Lampiaskan

Kekecewaan

Olahraga 213 Tempo Mourinho, Kompetisi, Kalah, Malu, Divisi, Liga, Dinihari, Tanding

33 Cedera, Annisa Mundur dari Djarum Superliga

Olahraga 201 Tempo Annisa, Cirebon, Otot, Gloria, Pasang, Cedera, Main, Juara, Tim, 2015

34 Bouchard: Sharapova Tak Memberi Kesempatan

Olahraga 157 Tempo Bouchard, Tenis, Sharapova, Semifinal, Salah, Singkir, Unggul, Butuh, Rusia, Pukul


(41)

Tabel 3.2 Data Berita yang Telah Dipublikasikan (Lanjutan)

No Judul Berita Kategori Jumlah

Kata

Sumber / Tanggal

Terbit

Tag yang digunakan

35 Berdych Singkirkan

Nadal di Australia Terbuka

Olahraga 272 Tempo Nadal, Berdych, Empat, Tenis, Tanding, Final, Turnamen, Menang,

Juang, Kalah

36 Asian Games, OCA

Minta Indonesia Bangun Velodrome

Olahraga 365 Tempo Delegasi, Oca, Lokasi, Rombong, Cabang, Olahraga, Tanding, Kompleks, Tuju, Lapang

37 Ikuti Olimpiade Catur,

Dua Kontestan Mati Mendadak

Olahraga 132 Tempo Catur, Olimpiade, Kontestan

38 Messi Sudah 21 Kali

Jebol Gawang Atletico

Olahraga 116 Tempo Barca, Messi, AtleticoMadrid

39 Van Gaal Tegaskan Fletcher Tetap Pemain MU

Olahraga 135 Tempo ManchesterUnited, Fletcher, VanGal

40 Ronaldo: Rivalitasku dengan Messi Menjadi Motivasi

Olahraga 157 Tempo Cristiano Ronaldo, Lionel Messi, Bola

41 Pemerintah Waspadai Modus Baru

Keberangkatan WNI Menuju Suriah

Nasional 452 Kompas/9 Maret 2015

Iqbal, Turki, Modus, WNI, Suriah,

42 Kunjungi Aceh, Presiden

Jokowi Dipakaikan "Meukeutop"

Nasional 185 Kompas/9 Maret 2015

Waduk Keureuto, Presiden, Pt Arun, Adat, Siwah, Lhokseumawe,

43 Tangkis Laut Rp 20

Miliar Rusak, Warga Minta Tanggung Jawab Kontraktor

Nasional 379 Kompas/9 Maret 2015

Laut, Tangkis, Warga, Ombak, Keluh, Rumah

44 Kampung Oeinalain,

Kawasan Perbatasan yang Minim Perhatian

Nasional 456 Kompas/9 Maret 2015

Kampung, Oeinalain, Wilayah, Warga, Jembatan, Musa

45 Tuntut Relokasi, Korban

Penggusuran PT Arun Ingin Temui Jokowi

Nasional 251 Kompas/9 Maret 2015

Pt Arun, Tenda, Janji, Gusur, Relokasi,

46 BNPB: Lima Gunung Api

Berstatus Siaga

Nasional 203 Kompas/9 Maret 2015

Gunung, Status, Puncak, Lava,

Bencana, Letus, Siaga,

47 Sebuah Makam Kuno Kembali Ditemukan di Gunung Padang, dan Juga Menhir

Nasional 400 Detik/9 Maret 2015

Gunung Padang, Menhir, Makam, Batu, Artefak, Kuno,


(42)

Tabel 3.2 Data Berita yang Telah Dipublikasikan (Lanjutan)

No Judul Berita Kategori Jumlah

Kata

Sumber / Tanggal

Terbit

Tag yang digunakan

48 Buruh Tolak Diskriminasi

Orientasi Seksual di Tempat Kerja

Nasional 180 Kompas/9 Maret 2015

Buruh, Perempuan, Kerja, Seksual, Jumisih, Orientasi,

49 Menteri Ferry: 43 dari 92

Pulau Terluar Sudah Tersertifikasi

Nasional 151 Kompas/9 Maret 2015

Pulau, Luar,

Kementerian Agraria, Sertifikasi, Indonesia, Batas, Ferry,

50 Pemerintah Akan Alihkan

Tanah Milik Orang Asing

Nasional 233 Kompas/9 Maret 2015

Asing, Tanah, Warga, Dubes, Pemerintah,

51 Pemprov Papua

Berencana Gugat Pt Freeport Indonesia

Nasional 350 Kompas/8 Maret 2015

Pajak, Pemerintah Provinsi Papua, Tanah, Ptfi,

52 Gunung Lokon Meletus,

Warga Ogah Mengungsi

Nasional 118 Vivanews/ 8 Maret 2015

Letus, Warga, Gunung Lokon, Gunung, Minahasa Tenggara Sulawesi Utara,

53 Gelombang Pasang,

Hampir Sepekan Nelayan Gagal Melaut

Nasional 146 Vivanews/ 8 Maret 2015

Gelombang, Nelayan, Ikan, Pantai Depok, Laut, melaut,

54 Faktor Cuaca Sebabkan

Jumlah Kunjungan Wisatawan Asing di Januari Anjlok

Nasional 546 Kompas/5 Maret 2015

Wisman, Pariwisata, Pasar, 2015, Promosi, Mancanegara, Bursa,

55 Keluarga Sudah

Dikabarkan soal

Eksekusi, Terpidana Mati Masih Menanti PK

Nasional 348 Kompas/5 Maret 2015

Keluarga, Eksekusi, Zainal, Ade, PK, Bali Nine

56 Kontras: Ruki Hanya Boneka Jokowi untuk Merusak KPK

Nasional 383 Kompas/5 Maret 2015

Ruki, KPK, Jaksa, Kasus, Presiden, Budi Gunawan,

57 Jokowi Seharusnya Meniru Keberanian Ahok

Nasional 214 Kompas/5 Maret 2015

Ahok, Korupsi, Jokowi, Apbd Dki, Dahnil, Publik, KPK,

58 Publik Pertanyakan Komitmen KPK, Jokowi Harus Segera Turun Tangan

Nasional 222 Kompas/5 Maret 2015

Jokowi, Ruki, KPK, Publik, Korupsi,

59 Jokowi Diminta Copot Komjen Budi Waseso karena Jadi Sumber Masalah

Nasional 240 Kompas/5 Maret 2015

Ray, Kabareskrim, Kriminalisasi,

Presiden, KPK, Polisi, Budi Waseso,

60 Basarnas Temukan Tiga Jenazah Air Asia

Nasional 176 Batakpos/ 24 Januari 2015

Evakuasi, Basarnas, Air Asia, QZ8501, air asia qz8501, Korban, jenazah,


(43)

3.3 Rekomendasi Tag Menggunakan TF-IDF dan Collaborative Tagging

Sistem rekomendasi tag dengan menggunakan TF-IDF dan Collaborative tagging

memiliki beberapa tahap dalam prosesnya. Adapun tahapan-tahapan tersebut dapat dilihat pada gambar 3.1.

Processing Prepocessing

Tokenizing

Filtering

Steamming dengan menggunakanAlgoritma Nazief & Adriani untuk teks

berbahasa Indonesia

Perhitungan bobot kata dengan menggunakan

TF-IDF

Collaborative tag dengan mencari kesamaan tag >=

50% dari berita yang ada Teks Berita Baru

Rekomendasi Tag pada Berita Baru

Tag dari berita lain

Gambar 3.1 General Architecture Rekomendasi tag

Dari gambar 3.1, terlihat langkah-langkah atau alur proses pembentukan rekomendasi tag. Di sini kita misalkan memasukkan berita dengan kategori “Nasional” dan isi berita seperti gambar 3.2. Adapun penjabaran sistem rekomendasi

tag yang akan dikembangkan adalah sebagai berikut: 1. Masukkan berita baru yang akan dipublikasikan.

Input Berita:

Tim evakuasi gabungan Badan SAR Nasional telah menemukan kotak hitam yang seluruh aktifitas di dalam kokpit pesawat sebelum insiden jatuhnya pesawat Air Asia QZ8501 di Surabaya. Diharapkan dengan penemuan kotak hitam ini nantinya akan memberikan titik terang penyebab jatuhnya pesawat Air Asia QZ8501.


(44)

2. Lakukan tokenizing yaitu proses memecah text masukan tersebut menjadi kata-kata atau frase-frase. Hasilnya dapat dilihat ada tabel 3.3.

Tabel 3.3 Tahap Tokenizing

Tim aktifitas di memberikan

evakuasi di Surabaya titik gabungan dalam Diharapkan terang Badan_SAR_Nasional kokpit dengan penyebab telah pesawat penemuan jatuhnya menemukan sebelum kotak pesawat

kotak insiden hitam Air_Asia_QZ8501

hitam jatuhnya ini

yang pesawat nantiya

seluruh Air_Asia_QZ8501 akan

3. Normalisasi kata dengan mengubahnya semua huruf menjadi huruf kecil. Kemudian melakukan filtering dengan cara membuang kata yang kurang penting yang disimpan pada tabel stopword di database. Pada kasus ini dimisalkan tabel

Stopword berisi kata-kata seperti terlihat pada tabel 3.4. Hasil proses Filtering

dapat dilihat pada tabel 3.5.

Tabel 3.4 Stopword

yang dengan dari ialah

seluruh ini oleh sebelum

di akan boleh ke

dalam memberikan sesungguhnya disitu Tabel 3.5 Hasil Tahap Filtering

tim aktifitas surabaya terang evakuasi kokpit diharapkan penyebab gabungan pesawat penemuan jatuhnya badan_sar_nasional insiden kotak pesawat

menemukan jatuhnya hitam air_asia_qz8501

kotak pesawat nantinya

hitam air_asia_qz8501 titik

4. Lakukan stemming yaitu tahap pencarian kata dasar dari kata-kata hasil filtering. Proses stemming menggunakan Algoritma Nazief & Adriani untuk teks berbahasa Indonesia. Pada gambar 3.6 dapat dilihat hasil stemming kata.


(1)

bukan sebuah frase. Sebagai contoh “Kotak Hitam”, masing-masing kata pada “Kotak Hitam” diawali oleh huruf kapital, maka kata-kata tersebut dijadikan menjadi 1 frase yang tidak dapat dipisahkan. Sebaliknya, jika awal dari masing-masing kata tersebut tidak diawali oleh huruf kapital maka kata tersebut dianggap sebagai 2 kata yang terpisah yaitu “kotak” dan “hitam”.

Pada proses TF-IDF, kata yang terpilih sebagai hasil dari TF-IDF bergantung pada banyaknya kata tersebut berulang pada berita yang dimasukkan. Semakin banyak kata tersebut berulang pada berita maka akan lebih besar kemungkinan kata tersebut menjadi rekomendasi tag. Semakin banyak tag hasil proses TF-IDF yang bersesuaian dengan tag berita terdahulu maka semakin banyak rekomendasi tag yang dapat dihasilkan.

Pada pengujian tabel 4.4 terlihat bahwa semakin besar Max Kata yang semakin jarang berita tersebut mendapatkan tambahan tag dari Collaborative tagging. Sebaliknya, semakin kecil Max Kata maka semakin banyak tambahan tag dari collaborative tag namun dampak negatifnya adalah tag tambahan yang diberikan terkadang cenderung kurang relevan dengan isi berita dan menghasilkan nilai persentase relevansi yang lebih kecil. Hal tersebut dapat terlihat pada tabel 4.4 berita pertama dengan Max Kata 2 dan menghasilkan 12 tag tambahan dari Collaborative tagging namun persentasi relevansi tag terhadap isi berita menjadi lebih kecil yaitu 57,1% karena beberapa tag tambahan dari berita sebelumnya tidak sesuai dengan isi berita yang dimasukkan. Hal tersebut juga dapat dilihat pada pengujian pada berita kedua, kelima, keenam, dan kesembilan di tabel 4.4.

Pada pengujian tabel 4.4, nilai persentasi tag yang relevan tertinggi adalah 100% dimana rekomendasi tag yang dihasilkan memiliki kerterkaitan yang baik dengan isi berita. Sebaliknya, nilai persentasi tag yang relevan terendah adalah 40% yang terdapat pada berita ke-2 dimana hasil rekomendasi tag kurang mencermintan isi berita. Nilai rata-rata dari persentase tag yang relevan pada pengujian tabel 44 adalah 79,97%.

Penelitian mengenai Collaborative tag dapat dilihat pada tabel 4.5. Pada penelitian ini diuji relevansi rekomendasi tag terhadap similarity collaborative tagging. Sama halnya dengan pengujian relevansi tag rekomendasi terhadap Max Kata dari proses TF-IDF di tabel 4.4, dari pengujian Tabel 4.5 diketahui bahwa semakin tinggi tingkat similarity yang digunakan maka akan semakin kecil kemungkinan


(2)

86

Collaborative tagging dapat diterapkan. Sebaliknya, rendah tingkat similarity Collaborative tagging yang digunakan maka semakin banyak tag tambahan yang diperoleh dari berita-berita sebelumnya namun hasil relevansi tag menjadi semakin rendah dikarenakan beberapa tambahan tag yang diproleh dari berita sebelumnya kurang relevan dengan isi berita yang dimasukkan. Nilai rata-rata tag yang relevan dari tabel 4.5 adalah 81,3%.

Nilai rata-rata dari seluruh pengujian yang dilakukan adalah 80,6% dan dari itu dapat dikatakan bahwa metode TF-IDF dan Collaborative tagging dapat memberikan rekomendasi tag yang cukup relevan dengan isi berita yang dimasukkan.


(3)

BAB 5

KESIMPULAN DAN SARAN

5.1 Kesimpulan

Berdasarkan pengujian Rekomendasi tag dengan menggunakan TF-IDF dan Collaborative tagging diperoleh beberapa kesimpulan yaitu:

1. TF-IDF dan Collaborative tagging dapat memberikan rekomendasi tag terhadap berita yang dimasukkan.

2. Pada tahap TF-IDF, semakin banyak kata yang berulang dalam isi berita maka akan lebih besar kemungkinan kata tersebut menjadi rekomendasi tag.

3. Hasil rekomendasi tag menggunakan TF-IDF dan Collaborative tagging sangat bergantung pada berita-berita yang telah dipublikasikan sebelumnya atau berita yang telah tersimpan di database. Semakin tinggi tingkat kesamaan tag berita yang di-input dengan berita yang terdapat di database maka semakin banyak tag yang dapat direkomendasikan.

4. Hasil pengujian dengan menggunakan 9 berita masukan dan 60 data berita yang telah tersimpan sebelumnya di database pada 3 kategori berita, yaitu Ekonomi, Nasional, dan Olahraga mendapatkan hasil 79,97% untuk pengujian relevansi tag rekomendasi terhadap Max Kata dari proses TF-IDF dan menghasilkan 81,3% untuk pengujian similarity Collaborative tagging.

Berdasarkan kesimpulan di atas, algoritma TF-IDF dan Collaborative tagging berhasil diimplementasikan pada suatu website berita online. Rata-rata dari seluruh pengujian relevansi rekomendasi tag terhadap isi berita yang dilakukan adalah 80,6%. 5.2 Saran

Pada penelitian selanjutnya, penulis menyarankan:


(4)

88

2. berbagai situs berita online (tidak terbatas dalam 1 website saja) serta melibatkan user biasa (pengunjung website).

3. Penerapan teknik–teknik lain yang dapat mendukung untuk menghasilkan rekomendasi tag yang lebih relevan serta mereapkan teknik untuk menentukan relevansi tag yang lebih baik lagi.

4. Menambahkan istilah–istilah penting ke dalam database agar tag yang dihasilkan menjadi lebih baik.


(5)

DAFTAR PUSTAKA

Adriani, M., Asian, J., Nazief, B., Tahaghoghi, S.M.M., Williams, H.E. 2007. Stemming indonesian: a confix - stripping approach. transaction on asian langeage information processing. Vol. 6, No. 4, Articel 13. Association for Computing Machinery New York.

Agusta, L. 2009. Perbandingan algoritma stemming porter dengan algoritma nazief & adriani untuk stemming dokumen teks bahasa indonesia. Konferensi Nasional Sistem dan Informatika, pp 196-201.

Anggaradana, A. 2013. Aplikasi text mining untuk pencarian laporan tugas akhir menggunakan metode tf/idf dan vector space berbasis web . Skripsi. Universitas Pendidikan Ganesha.

Falani, A. Z. 2011. Knowledge Discovery In Database. Universitas Narotama Press: Surabaya.

Feldman, R., & Sanger, J. 2007. The Text Mining Handbook: Advanced Approaches in Analyzing Unstructured Data. Cambridge University Press: New York.

Gea, D. 2011. Analisis pengujian optimalisasi kinerja website. Seminar Nasional Aplikasi Teknologi Informasi, pp. 55-59.

Guan, Z., Bu, J., Mei, Q., & Wang, C. 2009. Personalized tag recommendation using graph-based ranking on multi-type interrelated objects. ACM SIGIR conference. Herman, Achmad, A., & Ilham, A. A. 2012. Implementasi algoritma term frequency -

inverse document frequency dan vector space model untuk klasifikasi dokumen naskah dinas. FORTEI, pp. 88-92.

Hermansyah, A. 2009. Aplikasi pengkategorian dokumen dan pengukuran tingkat similaritas dokumen menggunakan kata kunci pada dokumen penulisan ilmiah universitas gunadarma. Skripsi . Universitas Gunadarma.

Heymann, P., Koutrika, G., & Garcia-M, H. 2008. Social tag prediction. Proceedings of the 31st Annual International ACM SIGIR Conference on Research and

Development in Information Retrieval, pp. 531–538.

Ji, A., Yeon, C., Kim, H., & Jo, G. 2007. Collaborative tagging in recommender systems. Proceedings of the 20th Australian Joint Conference on Artificial Intelligence, pp 377-386.

Kurniawan, Andre, & Toba, H. 2009. Pembuatan aplikasi bergerak temu ulang file elektronik berbahasa indonesia dengan memanfaatkan java cldc. Seminar Aplikasi Teknologi Informasi 2009.


(6)

90

Lee, S. O., & Chun, A. H. 2008. Automatic Tag Recommendation for Web 2.0 Blogosphere by Extracting Keywords from Similar Blogs. Applied Computer & Applied Computational Science, pp. 312-317.

Lu, Y., Yu, S., Channg, T., & H, J. Y. 2009. A content-based method to enhance tag recommendation. Proceedings of the 21st International Joint Conference on Artificial Intelligence, pp. 2064-2069.

Manning, C. D., Raghavan, P., & Schutze, H. 2008. Introduction to Information Retrieval. Cambridge University Press: New York.

Muflikhah, L., Fadilah, N., & Rodok, A. 2013. Sistem rekomendasi tag pada dokumen blog menggunakan latent semantic indexing. Seminar Nasional Teknologi Informasi dan Multimedia 2013 STMIK AMIKOM, pp. 45-51.

Munawar. 2005. Pemodelan Visual dengan UML. Yogyakarta: Graha Ilmu.

Nazief, A & Adriani, M. 1996. Confix- stripping: Approach to stemming algorithm for Bahasa Indonesia. Internal publication, Faculty of Computer Science, University of Indonesia, Depok, Jakarta.

Parulian, R.K. 2013. Text mining dalam pengklasifikasian sub kategori jurnal ilmiah elektronik menggunakan naïve bayes classifier. Skripsi. Universitas Sumatera Utara.

Purbasari, I. Y., Cai, H., Lao, A. D., & Al-Rawahi, I. M. 2013. Aplikasi rekomendasi tag pada situs berbagi gambar flickr. Seminar Nasional Teknik Informatika.

Rajaraman, A. & Ullman, J. D. 2011. Mining of Massive Datasets. Cambridge University Press: New York.

Song, Y., Zhang, L., & Giles, C. L. 2008. Automatic tag recommendation algorithms for social recommender systems. ACM Transactions on Computational Logic, pp 1–35.

Sood, S., Owsley, S., Hammond, K., & Birnbaum, L. 2007. Tagassist: Automatic tag suggestion for blog posts. Proceedings of the International Conference on Weblogs and Social Media (ICWSM 2007).