Query Expansion Pada LINE TODAY Dengan Algoritme Extended Rocchio Relevance Feedback

Vol. 3, No. 1, Januari 2019, hlm. 177-185 http://j-ptiik.ub.ac.id

Query Expansion Pada LINE TODAY Dengan Algoritme Extended Rocchio

Relevance Feedback

₁ ₂ ₃ Chandra Ayu Anindya Putri , Indriati , Ahmad Afif Supianto

Program Studi Teknik Informatika, Fakultas Ilmu Komputer, Universitas Brawijaya ₁ ₃ Email: [email protected], [email protected]

Abstrak

LINE TODAY memberikan akses informasi berupa konten-konten berita up to date. Data pada LINE TODAY dimanfaatkan untuk dapat dilakukan fitur pencarian berita. Teknik Query Expansion akan sangat berguna jika dikombinasikan dengan sistem pencarian, sebab query yang diinputkan pengguna akan dikombinasi dengan query tambahan yang diberikan oleh sistem. Query tambahan akan membuat

query yang pengguna hasilkan lebih spesifik. Selain itu, hadirnya feedback pengguna (user

judgement/explicit relevance feedback ) yang melakukan penilaian pada tiap berita akan meminimalisir

yang ambigu. Proses yang dilakukan diawali dengan teknik preprocessing, yang terdiri dari

query

beberapa tahapan, yaitu cleansing, case folding, tokenization, filtering, hingga stemming. Kemudian dilakukan pembobotan term (term weighting) dan cosine similarity. Setelah itu, proses yang dilakukan ialah perhitungan dengan metode Extended Rocchio Relevance Feedback yang merupakan metode turunan dari Rocchio Relevance Feedback, untuk menghasilkan query tambahan. Hasil yang diperoleh berdasarkan dari implementasi maupun pengujian pada penelitian Query Expansion pada LINE TODAY dengan Algoritme Extended Rocchio Relevance Feedback menghasilkan rata-rata nilai Precision sebesar 0.53308, Recall sebesar 0.81708, F-Measure sebesar 0.59553, dan Akurasi sebesar 0.9574. Nilai akurasi yang didapat dengan metode Extended Rocchio Relevance Feedback berdasar user judgement cenderung meningkat hingga 2% dibandingkan pencarian otomatis dengan metode Rocchio Relevance Feedback.

Kata kunci: Text Mining, Query Expansion, LINE TODAY, Extended Rocchio Relevance Feedback.

Abstract

LINE TODAY provides access to up-to-date news contents. Data on LINE TODAY are used to be able

to do search engine feature. Query Expansion technique will be very useful if it is to be combined with

search engine system where the queries inputted by users are combined with additional queries from

the system. These additional queries will make queries generated by users more specific. In addition,

users feedback (user judgement/explicit relevance feedback) assessing on each news can minimize

ambiguous queries. The process begins with preprocessing technique consisting of several stages which

are cleansing, case folding, tokenization, filtering, and stemming. And then, term weighting and cosine

similarity. The next process is calculated using the Extended Rocchio Relevance Feedback method

which is a traditional method from Rocchio Relevance Feedback to generate an additional queries. The

results are obtained from implementation and testing process of Query Expansion on LINE TODAY with

Extended Rocchio Relevance Feedback Algorithm resulted an average Precision value of 0.53308,

Recall value of 0.81708, F-Measure value of 0.59553, and Accuracy value of 0.9574. The accuracy

value obtained with Extended Rocchio Relevance Feedback method based on user judgement increase

by 2% compared to automated search by the method of Rocchio Relevance Feedback.

Keywords: Text Mining, Query Expansion, LINE TODAY, Extended Rocchio Relevance Feedback.

suatu keputusan, menambah wawasan, 1.

PENDAHULUAN mengetahui apa yang sedang terjadi saat ini, dan

Informasi merupakan salah satu kebutuhan dapat meminimalisir adanya asumsi-asumsi utama masyarakat untuk bertahan hidup, karena masyarakat yang belum dapat dipastikan dengan melalui informasi kita dapat mengambil

Fakultas Ilmu Komputer Universitas Brawijaya

177 kebenarannya. Informasi dapat diakses melalui media apapun, salah satunya media elektronik, yaitu dengan memanfaatkan teknologi informasi berbasis internet. Informasi yang didapat melalui internet cenderung lebih cepat, mudah, dan efektif. Informasi yang didapatkan biasanya dalam bentuk berita artikel yang di sebarluaskan melalui situs website berita, misalnya seperti LINE TODAY, yang merupakan salah satu fitur yang berisi kumpulan artikel berita dari aplikasi pengiriman pesan LINE.

Data yang dimanfaatkan pada penelitian ini memanfaatkan artikel berita LINE TODAY,. Karena berita yang dihadirkan berasal dari sumber terpercaya dan up-to-date. Selain itu, permasalahan yang sering kita hadapi, ialah saat melakukan pencarian, query yang ingin kita inputkan tidak sesuai atau kurang spesifik dengan hasil dokumen yang ingin kita dapatkan. Oleh sebab itu, adanya query expansion sangat membantu dalam perluasan query pengguna. Perluasan query yang ditampilkan oleh sistem akan membantu menyempurnakan query pengguna yang ambigu dan agar lebih terstruktur. Pada penelitian sebelumnya yang dilakukan oleh, Zanwar Yoga Pamungkas pada tahun 2015, penelitian pada query expansion terbukti berhasil memberikan query tambahan kata dengan hasil pencarian yang lebih spesifik dan relevan.

expansion , tentunya akan semakin memudahkan

3. Filtering Proses ini dilakukan dengan cek list kata pada stipword, dimana list tersebut mengandung kata yang tidak penting atau yang seharusnya dihilangkan. Bila dalam teks terdapat kata pada list stopword, maka akan dihilangkan.

2. Tokenization Proses ini dilakukan dengan pemecahan teks menjadi kata atau token, dimana pemisahan dilakukan dengan whitespace.

untuk mengubah semua kata menjadi lowercase atau huruf kecil.

case folsing

komponen-komponen yang tidak dibutuhkan, seperti tag URL dan karakter lainnya. Sedangkan

Cleansing digunakan untuk menghapus

1. Cleansing dan Case Folding

information retrieval, dengan melalui proses cleansing dan case folding, tokenization, filtering, dan stemming.

Pemrosesan teks atau preprocessing ini digunakan untuk mempermudah proses

2.2 Pemrosesan Teks

menghasilkan dokumen-dokumen yang relevan.

expansion atau query tambahan, akan membuat query pencarian lebih spesifik dan lebih mudah

pengguna, karena dengan adanya query

LINE TODAY, merupakan situs berita online salah satu fitur dari aplikasi pengiriman pesan, LINE. Informasi berita yang dihadirkan berupa berita terkini dan up-to-date, serta diperbarui secara real time. Berita-berita yang dihadirkan berasal dari artikel situs lain yang merupakan mitra media yang terpercaya. Pencarian berita yang dilengkapi dengan query

Penelitian sebelumnya telah dilakukan eksplorasi metode dari metode tradisional

2.1 LINE TODAY

2. DASAR TEORI

jika diterapkan dalam query expansion, karena hasil pencarian dari query asli yang dikombinasikan dengan query tambahan akan menghasilkan dokumen relevan yang semakin sedikit, hal ini dikarenakan query yang digunakan semakin spesifik .

Feedback . Algoritme tersebut dinilai cukup baik

Algoritme Extended Rocchio Relevance

Expansion pada LINE TODAY dengan

Berdasarkan uraian-uraian di atas, penelitian ini membahas tentang Query

pada tahun 2014. Dalam penelitian tersebut pendekatan explicit diterapkan dalam file log maupun dokumen dengan mengidentifikasi suatu konteks dalam informasi permintaan.

explicit ini juga dilakukan oleh Hassan Saneifar

tersebut membutuhkan feedback dari pengguna untuk menilai relevansi dokumen-dokumen yang ditampilkan dari query yang diinputkan. Selain penelitian dari Chris Jordan, pendekatan

explicit rocchio relevance feedback . Model

Pencarian yang efektif pada sistem IR akan dilakukan dengan model Relevance Feedback. (Adisantoso, Ridha, & Agusetyawan, 2006). Salah satunya, ialah model user judgement atau

diteliti sebelumnya oleh, Chris Jordan pada tahun 2004, modifikasi query akan menjadi lebih spesifik, karena adanya kombinasi antara query tambahan dengan query pengguna, selain itu juga memanfaatkan pendekatan user judgement atau penilaian relevansi dokumen dari pengguna.

Rocchio Relevance Feedback, yaitu Extended Rocchio Relevance Feedback . Seperti yang telah

4. Stemming Proses ini mengubah semua kata hasil

filtering menjadi kata dasar. Algoritma Nazief-

10 ,

> 0 0, ℎ

(1) 2.

IDF

IDF lebih terfokus kemunculan term pada

seluruh kumpulan dokumen. Pada pembobotan ini, term yang jarang muncul di kumpulan dokumen memiliki nilai kepentingan.

( / ) (2) 3.

Adriani digunakan selama proses stemming, karena dapat melakukan pengecekan tiap penerapan pada aturan stemming dapat diidentifikasikan. Berikut merupakan prosesnya (Wahyudi, Susyanto, & Nugroho, 2017), diantaranya:

TF.IDF dihasilkan dari penggabungan

perkalian dari rumus di atas, yaitu rumus TF dengan IDF sehingga kombinasi bobotnya, ialah:

( , ) × (3)

2.4 Query Expansion Query Expansion , merupakan teknik untuk

menambahkan query baru atau tambahan kata dari yang dikombinasikan dengan query asli. Kinerja pencarian akan meninkat dengan adanya perluasan query pencarian (Saneifar, Bonniol, Poncelet, & Roche, 2014). Berikut ini merupakan teknik dari query expansion (Pamungkas, 2015), ialah: 1.

Manual Query Expansionn (MQE), pengguna sendiri akan melakukan modifikasi query.

2. Autmatic Query Expansion (AQE), teknik ini memodifikasi query tanpa adanya control dari pengguna.

3. Interactive Query Information, teknik ini dibutuhkan adanya interaksi antara pengguna dengan sistem, yaitu dalam proses query expansion. Berikut merupakan diagram tahapan query

( , ) = 1 + ( , ) = {1 + log

TF Metode ini melakukan pembobotan term yang diasumsi memiliki suatu kepentingan yang proposional terhadap kemunculan term pada dokumen. Bobot term t pada dokumen d, yaitu:

2015). Berikut merupakan beberapa metode yang ada pada pembobotan (Fauzi, Arifin, & Yuniarti, 2014), diantaranya: 1.

Frequency (DF) (Rosid, Gunawan, & Pramana,

hubungan kata pada dokumen. Metode ini menggabungkan dua konsep perhitungan bobot, yaitu Term Frequency (TF) dan Document

TF.IDF , merupakan metode untuk pembobotan

Pembobotan yang dilakukan dengan

1 Kata yang belum dilakukan stemming dicari di dalam kamus, jika tersedia, maka kata tersebut akan dianggap sebagai kata dasar yang tepat dan algoritma dihentikan.

2 Menghilangkan imbuhan infeksi atau

inflectional suffixes

(“-lah”,”-kah”,”-tah”, serta “-pun”). Kemudian jika berhasil dan akhirannya memiliki imbuhan (“-lah” atau ”-kah”), maka akan dilanjutkan ke langkah berikutnya dengan menghilangkan

inflectional posseive pronoun suffixes

(“- ku”,”-mu”, dan “-nya”). Cek apakah kata berada di dalam kamus kata dasar, jika ada, maka algoritma dihentikan, jika tidak, dilanjutkan ke step berikutnya.

3 Menghilangkan derivational suffix, yaitu (“-i” atau “-an”). Jika langkah tersebut berhasil, kemudian dilanjutkan ke langkah berikutnya, namun jika tidak, maka dilakukan hal berikut ini, diantaranya: a.

TF.IDF

Jika “-an” dihilangkan dan huruf terakir dari kata “-k”, maka “-k” juga dihilangkan dan dilanjutkan ke langkah berikutnya.

4 Penghapusan pada derivational prefix (“be- “,”di-“,”ke-“,”me-“,”pe-“,”se-“, dan ”te-“).

Bila kata yang dimiliki tersedia dalam kamus kata dasar, maka proses akan dihentikan dan bila tidak tersedia, maka akan dilakukan recoding. Tahap-tahap proses dihentikan, karena memenuhi beberapa kondisi berikut ini, diantaranya:

a. Ada kombinasi awalan maupun akhiran

yang tidak diijinkan

b. Awalan yang terdeteksi sama dengan awalan yang dihapuskan sebelumnya.

c. Tiga awalan dihilangkan.

5 Jika semua langkah sebelumnya telah dilakukan namun kata dasar belum ditemukan pada kamus, maka algoritma ini akan mengembalikan kata yang asli sebelum dilakukannya proses stemming.

Penghapusan akhiran (“-I”, “-an”, serta “-kan”) dikembalikan dan lanjut ke step berikutnya.

2.3 TF.IDF

expansion menurut Ludviani, (2015) yang query yang dimasukkan.

ditunjukkan pada Gambar 1.

2.7 Extended Rocchio Relevance Feedback

Metode ini merupakan turunan dari metode tradisional Rocchio Relevance Feedback . Metode extended rocchio , menunjukkan peningkatan kinerja pada saat pengambilan

Gambar 1 Diagram Tahapan Query Expansion dokumen VSR atau Vector Spave Retrieval, serta akan mendapatkan hasil yang

sebanding

2.5 Relevance Feedback

dengan algoritme tradisionalnya . Selain itu, Relevance feedback, teknik ini

pada metode ini dinilai memiliki lebih banyak memodifikasi suatu query yang sering pengujian parameter untuk mengukur baik diimplementasikan pada information retrieval. buruknya query expansion dari metode ini. Cara kerjanya ialah dengan memilih term

Berikut merupakan proses perhitungan, penting dalam dokumen yang dianggap diantaranya: dokumen relevan oleh pengguna, serta menambahkan term penting ke dalam proses 1.

Query Modification modifikasi query. Berikut ini merupakan metode Pada proses ini memanfaatkan perhitungan

relevance feedback (Pamungkas, Indriati, & nilai dari cosine similarity.

Ridok, 2015), diantaranya:

●

(4) ( , ) =

User Judgement (Explicit Rocchio 1.

| |×| | Relevance Feedback

Dokumen dengan nilai similarity Pada metode ini membutuhkan penilaian tertinggilah yang akan dijadikan nilai V sebagai relevansi dokumen pada query tertentu. penentu penggunaan rumus untuk modifikasi

Penilaian yang diberikan, yaitu dengan penilaian

query

yang sebelumnya diset nilai dari σ, terhadap suatu dokumen dan menentukan mana sebagai threshold, dengan kondisi sebagai dokumen relevan maupun tidak. berikut: 1.

Jika nilai V tidak memiliki similarity atau

2. User Behavior(Implicit Relevance Feeback (V

<σ), maka tidak perlu dilakukan modifikasi query. Metode ini berhubungan dengan perilaku pengguna, yaitu seperti mencatat dokumen

2. Jika nilai V memiliki similarity atau (V>σ), terpilih maupun tidak dan durasi waktu untuk maka perlu dilakukan modifikasi query melihat dokumen maupun proses selama melakukan pencarian hingga scrolling halaman.

2. Relevance Feedback

3. Top K Relevance (Blind/Pseudo Relevance Feedback) Proses ini dilakukan untuk menunjukkan

Metode ini hanya melibatkan pengguna saat proses dokumen retrieval. Dokumen yang telah proses keputusan dan dokumen relevan yang dilakukan perangkingan digunakan untuk ditampilkan secara otomatis, karena tanpa memberntuk 3 vector sebagai berikut: memerlukan feedback dari pengguna.

1. Term Vector P : berisi nilai rata-rata pada

2.6 term weight dan dikususkan pada dokumen

User Judgement (Explicit Relevance Feedback) relevan yang tidak termasuk dalam original Relevance feedback jenis ini mendapatkan query , Q. feedback secara explicit dari pengguna untuk 2.

Term Vector N : berisi nilai rata-rata pada menunjukkan penilaian. Pengguna secara term weight dan dikususkan pada dokumen eksplisit memberikan penilaian pada dokumen, tidak relevan yang tidak termasuk dalam yaitu berupa dokumen relevan maupun tidak original query, Q. relevan dari perangkingan dokumen hasil dari 3.

query yang dimasukkan. Pengguna secara Term Vector F, berisi nilai dari term vector,

eksplisit memberikan penilaian pada dokumen, V, namun tidak berasal dari P, N, dan Q.

yaitu berupa dokumen relevan maupun tidak 3. relevan dari perangkingan dokumen hasil dari Profile Modification

(10)

2.8 Precision, Recall, F-Measure, dan Akurasi

Tabel 1. Confussion Matrix

(2.13)

2× ×

1 =

(2.12)

∗ 100% (9)

Semakin tinggi nilai akurasi yang didapatkan, maka akan menunjukkan kesesuaian nilai dari prediksi pengujian pada ground truth atau nilai actual.

(2.11)

Pada bagian ini membahas tentang teknik dan proses yang dilakukan selama penelitian pada query expansion pada LINE TODAY dengan algoritme Extended Rocchio Relevance

Feedback.

3.1 Rancangan Penelitian

Actual Class (expectation)

confussion matrix yang berisi informasi

klasifikasi yang sebenarnya dan merupakan prediksi klasifikasi oleh sistem (Pamungkas, Indriati, & Ridok, 2015).

3. METODOLOGI PENELITIAN

Evaluasi peforma efektivitas pada sistem klasifikasi teks dengan menggunakan standar

Sedangkan ∆, merupakan nilai konstanta yang mengatur kerusakan pada term.

Nilai , , dan , merupakan nilai konstan yang ada pada algoritme Rocchio.

= ∗ + ∗ − ∗ + ∆ ∗ (6)

dilakukan sebagai berikut:

query atau σ<V, maka perhitungan yang

(5) 2. Jika pada tahap 1 dilakukan modifikasi

= ∗ + ∗ − ∗

modifikasi kueri, maka menggunakan rumus Dengan arti lain jika σ>V, maka menggunakan rumus:

1. Jika pada tahap 1 tidak dilakukan

Rancangan ini digunakan untuk memberikan gambaran umum mengenai bagaimana sistem yang dibangun ini berjalan dimulai dari input, proses, hingga output. Berikut rancangan arsitekturnya ditunjukkan pada Gambar 2.

F1 measure, ialah bobot harmonic mean yang ada pada recall dan precision.

Predicted Class (Observation)
TP FP

FN TN

Keterangan: TP : True Positive, dimana menunjukkan perangkingan sistem merupakan dokumen yang sesuai dengan query. FP : False Prositive, dimana menunjukkan dokumen dalam hasil perangkingan sistem tidak sesuai dengan query. FN : False Negative, dimana menunjukkan dokumen tidak termasuk dalam perangkingan sistem dan harusnya sesuai dengan query. TN : True Negative, dimana menunjukkan dokumen tidak termasuk perangkingan sistem dan memang seharusnya tidak sesuai query.

Gambar 2 Model Perancangan Arsitektur

3.2 Partisipan Penelitian

Pada penelitian ini memanfaatkan partisipan sebanyak 3 orang mahasiswa untuk menilai suatu dokumen. Dokumen yang dinilai berupa hasil kesesuaiannya dengan query, apakah tergolong relevan atau tidak.

3.3 Teknik Pengumpulan Data

Data yang didapat berasal dari situs berita online LINE TODAY, dengan mengumpulkan sebanyak 200 data latih berita dengan 25 data uji berupa query.

(2.10) =

3.4 Gambar 3. Diagram Alir Sistem Teknik Pengujian

Pengujian dilakukan dengan uji hasil kerja

4.2

sistem dan dilakukan evaluasi sistem. Proses Diagram Alir Sistem Metode Extended

Rocchio Relevance Feedback

tersebut dilakukan guna mengetahui hasil sistem yang nantinya akan digunakan sebagai penarikan Metode ini digunakan untuk perhitungan

query expansion sebagai tambahan kata dari

kesimpulan. Pengujian yang dilakukan dengan

query asli. Selain itu, metode ini juga dinilai

menilai dari hasil tingkat akurasi, precision,

recall , dan f-measure. Selain itu, perbandingan efektif diterapkan dalam query expansion,

karena memanfaatkan pendekatan user juga dilakukan pada query sebelum dan sesudah dilakukan perhitungan dengan metode Extended judgement. Berikut merupakan rancangan ditunjukkan pada Gambar 4.

Rocchio Relevance Feedback . flowchart 4.

PERANCANGAN

Perancangan sistem bertujuan untuk mengetahui langkah apa saha yang harus dilakukan dalam membangun sistem.

4.1 Diagram Alir Sistem

Diagram alir ini menunjukkan jalan proses sistem yang dilakukan secara keseluruhan, yaitu dimulai dari proses preprocessing, pembobotan TF.IDF dan cosine similarity. Selanjutnya dilakukan pemilihan dokumen relevan maupun tidak relevan dan masuk ke proses metode untuk tambahan kata query, yaitu Extended Rocchio

Rlelevance Feedback. Berikut diagram alirnya ditunjukkan pada Gambar 3.

Gambar 4. Diagram Alir Metode Extended

Rocchio Relevance Feedback 5.

PENGUJIAN DAN ANALISIS

Pada bagian ini membahas tentang pengujian yang merupakan hasil dari sistem yang kemudian nantinya akan dianalisis.

5.1 Pengujian

Pengujian dilakukan dengan mengukur tingkat kenaikan dari tiap parameter dengan melalui 3 indikator pengujian, yaitu precision,

recall, dan f-measure, yang menguji salah satu

query pengujian saja

5.1.4 Pengujian Perbandingan Metode

batas bawah K. Berikut merupakan pengujian pada P@K yang ditunjukkan pada Tabel 4 dengan tambahan hingga 5 kata..

Tabel 5. Pengujian P@K

No Query P@10

Tambahan Kata

1 Kisah Unik Akun 0.2 1 kata

2 Kisah Unik Akun Artinstic 0.3 2 kata

3 Kisah Unik Akun Artinstic Angkat 0.4 3 kata

4 Kisah Unik Akun Artinstic Angkat Blogger 0.5 4 kata

5 Kisah Unik Akun Artinstic Angkat Blogger Catching 0.6 5 kata

Pengujian ini dilakukan dengan membandingkan metode tradisional, Rocchio

Pengujian ini digunakan untuk menguji nilai threshold K pada precision. Dokumen yang dianalisis ialah dokumen teratas sejumlah

Relevance Feedback dengan metode turunannya, yaitu Extended Rocchio Relevance Feedback.

Perbandingan dilakukan dengan mengukur nilai dari Precision, Recall, F-Measure, dan Akurasi. Berikut Tabel 5 menunjukkan hasil perbandingannya.

Tabel 6. Hasil Perbandingan Pengujian Metode

Metode Precision Recall

F- Measure Akurasi

Extended Rocchio 0.53308 0.81708 0.59553 0.9574

Rocchio 0.25951 0.89867 0.35478 0.9372

5.2 Analisis

Pada pengujian Tabel 2, menunjukkan adanya penurunan pada nilai precision, hal ini disebabkan karena nilai FP mengalami kenaikan, dimana FP merupakan banyak dokumen yang tidak sesuai dengan query. Sedangkan recall cenderung naik, karena FN menurun. FN menunjukkan banyaknya dokumen relevan yang tidak masuk dalam perangkingan.

K dan mengabaikan dokumen yang berada di

5.1.3 Pengujian Precision@K

, yaitu “Avenger Infinity War”. Tiap parameter yang diuji dan mendapatkan nilai kenaikan tertinggi akan menjadi nilai parameter yang digunakan untuk perhitungan pada keseluruhan query. Nilai kenaikan didapat dengan mengukur berapa besar perubahan nilai yang terjadi antara query asli pengguna dengan query tambahan dari sistem. Berikut merupakan parameter terpilih ditunjukkan pada Tabel 1.

recall, dan f-measure antara query asli atau awal

Tabel 2. Hasil Pengujian Parameter

σ α β γ ∆

0.1

1.25

0.79

0.28

0.54

5.1.1 Pengujian Query Asli dengan Query Expansion

Pengujian ini dilakukan dengan membandingkan nilai kenaikan precision,

(query pengguna) dengan query dengan tambahan kata. Nilai kenaikan didapat dengan mengukur berapa besar perubahan nilai yang terjadi. Kemudian, kenaikan dihitung rata- ratanya di tiap indikator pengujiannya. Berikut ditunjukkan pada Tabel 2.

1 kata 0.53308 0.81708 0.59553 0.9574 2 kata 0.45273 0.81971 0.52469 0.9478

Tabel 3. Hasil Rata-Rata Kenaikan

Kenaikan Precision -0.0461 Recall 0.08995

F-Measure -0.0016

5.1.2 Pengujian Tambahan 1 dan 2 Kata

Pengujian ini dilakukan dengan membandingkan nilai precision, recall, f- measure, dan akurasi antara query tambahan 1 kata dengan tambahan 2 kata. Berikut Tabel 3 menunjukkan hasil rata-rata perbandingan antara

query dengan 1 tambahan kata dan dengan 2 tambahan kata.

Tabel 4. Hasil Perbandingan Pengujian Tambahan 1 dan 2 Kata

Jumlah Kata Precision Recall

F- Measure Akurasi

Pengujian Tabel 3. Dilakukan pengujian perbandingan pada tambahan kata 1 dan 2 kata. Pada nilai precision tambahan 2 kata cenderung menurun, karena banyak dokumen tidak sesuai muncul dalam perangkingan. Nilai recall cenderung naik, karena dokumen relevan yang tidak muncul dalam perangkingan cenderung sedikit Sedangkan akurasi mengalami penurunan dari tambahan 1 kata menjadi 2 kata, karena semakin banyaknya query yang diinputkan, maka dokumen yang ada dala perangkingan akan meningkat, namun dokumen yang relevan akan semakin sedikit. Pengujian Tabel 4 dilakukan dengan menguji nilai precision pada P@K., dimana nilai

K adalah threshold dengan nilai perangkingan di

atas K=

10. Tambahan kata cenderung meningkatkan nilai precisionnya. Pada pengujian Tabel 5. Perbandingan dilakukan antar metode, dimana metode

Extended Rocchio memiliki nilai kenaikan lebih tinggi hingga 2 %.

Alam, M., & Sadaf, K. (2015). Relevance Feedback versus Web Search Document Clustering. IEEE Conference (pp. 4294- 4298).India: BharatiVidyapeeth's Institute of Computer Applications and Management (BVICAM).

INDONESIA DENGAN METODE IDE-DEC-HI DAN IDE-REGULAR. Jurnal Ilmiah Ilmu Komputer , 1-8.

(2006). RELEVANCE FEEDBACK PADA TEMU-KEMBALI TEKS BERBAHASA

6. KESIMPULAN

Metode Extended Rocchio Relevance

and the philosophy of language. New

Rocchio Relevance Feedback Algorithm to Provide Contextual Retrieval. International AWIC 2004:

IDE KREATIF PADA PERUSAHAAN. JTIIK, 97-103. Jordan, C., & Watters, C. (2004). Extending the

IMPLEMENTASI METODE K-NEAREST NEIGHBOUR DENGAN PEMBOBOTAN TF.IDF.ICF UNTUK KATEGORISASI

C. (2017).

Northampton, Massachusetts, USA: ACM New York, NY, USA. Herlambang, Y. R., Putri, R. R., & Wihandika, R.

Proceedings of the 2015 International Conference on The Theory of Information Retrieval (pp. 141-150).

H., & Zhai, C. (2015). AxiomatiAnalysis of Smoothing Methods in Language Models for Pseudo-Relevance Feedback. ICTIR '15

Hazimeh,

(pp. 253-263). Yogyakarta: Sekolah Tinggi Manajemen Informatika dan Komputer AKAKDM Yogyakarta.

Riset Teknologi Informasi-SRITI 2006

Hamzah, Amir. (2006). Pengaruh Stemming Kata Dalam Peningkatan Unjuk Kerja Document Clustering Untuk Dokumen Berbahasa Indonesia. Seminar Nasional

(2014). Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab. LONTAR KOMPUTER VOL. 5, NO.2 , 435-442.

York: Elseiver North-Holland, Inc. New York, NY, USA. Fauzi, M. A., Arifin, A. Z., & Yuniarti, A.

Blair, David C. (2003). Information retrieval

Feedback dapat diterapkan dalam

Pada bagian ini akan membahas tentang kesimpulan yang didapatkan dari hasil penelitian

Query Expansion Pada LINE TODAY Dengan

Algoritme Extended Rocchio Relevance

Feedback, berikut diantaranya: 1.

Kemudian pada f-measure memiliki nilai rata-rata sebesar 0.596 untuk 1 kata tambahan dan 0.525 untuk 2 tambahan kata. Sedangkan rata-rata akurasinya pada 1 kata tambahan sebesar 0.96 dan 0.95 untuk 2 tambahan kata. Penambahan jumlah kata pada query expansion dapat mempengaruhi nilai precision, recall, f-measure, dan akurasinya. Selain itu dilakukan perbandingan dengan metode tradisional, yaitu Rocchio dan hasilnya terbukti lebih baik dengan menggunakan Extended Rocchio dengan kenaikan hingga 2%.

recall pada 1 tambahan kata sebesar 0.817 dan 0.819 untuk 2 tambahan kata.

menghasilkan nilai rata-rata precision sebesar 0.53 untuk 1 kata tambahan dan 0.45 untuk 2 tambahan kata. Untuk nilai

Extended Rocchio Relevance Feedback

2. Pengujan query expansion dengan Metode

digunakan dalam perhitungan untuk pencarian query tambahan baru. Semakin banyak query yang ditambahkan dari query aslinya, maka pencarian akan semakin spesifik dan dokumen yang relevanpun akan semakin sedikit sebaliknya dokumen tidak relevan akan semakin banyak.

F, hingga set parameter untuk dapat

dilakukan pencarian Term Vector P, N, dan

weighting dan cosine similarity, selanjutnya

melakukan pencarian pada situs berita online LINE TODAY. Dokumen yang tersedia akan melalui tahapan preprocessing , kemudian dilakukan perhitungan pada term

7. DAFTAR PUSTAKA Adisantoso, J., Ridha, A., & Agusetyawan, W.

Advances in Web Intelligence (pp. 135- 144). Berlin, Heidelberg: Springer.

Kurniawan, B., Effendi, S., & Sitompul, O. S.

(2012). Klasifikasi Konten Berita Dengan Metode Text Mining. Jurnal

Dunia Teknologi Informasi Vol.1, No.1 , 14-19.

Ludviani, R., Hayati, K. F., Arifin, A. Z., & Purwitasari,

D. (2015). Optimasi Pembobotan pada Query Expansion dengan Term Relatedness to Query- Entropy based (TRQE). Jurnal Buana

Informatika, Volume 6, Nomor 3 , 203- 212.

Manning, C. D., Raghavan, P., & Schütze, H.

(2008). Introduction to Information

Retrieval. Cambridge: Cambridge University Press.

Query Expansion Pada LINE TODAY Dengan Algoritme Extended Rocchio Relevance Feedback

TF.IDF

2.3 TF.IDF

2.5 Relevance Feedback

2.8 Precision, Recall, F-Measure, dan Akurasi

4.1 Diagram Alir Sistem

PENGUJIAN DAN ANALISIS

6. KESIMPULAN

Dokumen yang terkait

Clustering Dokumen Skripsi Dengan Menggunakan Hierarchical Agglomerative Clustering

Implementasi Metode Naïve Bayes-Certainty Factor Untuk Diagnosis Penyakit Pada Kelamin Laki-Laki

Evaluasi dan Perbaikan Rancangan Pemesanan PCB Pada Situs Sfe- Electronics.com

Evaluasi Dan Perancangan User Interface Untuk Meningkatkan User Experience Menggunakan Metode Human Centered Design Dan Heuristic Evaluation Pada Aplikasi EzyPay

Optimasi Penjadwalan Shift Jaga Dokter di IGD Menggunakan Algoritme Genetika (Studi Kasus Rumah Sakit di Malang)

Sistem Deteksi dan Pengenalan Jenis Rambu Lalu Lintas Menggunakan Metode Shape Detection Pada Raspberry Pi

Evaluasi Pada Variasi Proses Bisnis Penanganan Pengaduan Dengan Menerapkan Process Mining Dan Quality Evaluation Framework (QEF) (Studi Kasus : Perusahaan Daerah Air Minum Kota Malang)

Klasifikasi Berita pada Twitter Menggunakan Metode Naive Bayes dan Query Expansion Hipernim-Hiponim

Peramalan Persediaan Spare Part Sepeda Motor Menggunakan Algoritme Backpropagation

Evaluasi Pada Variasi Proses Bisnis Layanan Donor Darah (Studi Kasus : UTD PMI Kota Malang)

Dukungan

Links

Query Expansion Pada LINE TODAY Dengan Algoritme Extended Rocchio Relevance Feedback

TF.IDF

2.3 TF.IDF

2.5 Relevance Feedback

2.8 Precision, Recall, F-Measure, dan Akurasi

4.1 Diagram Alir Sistem

PENGUJIAN DAN ANALISIS

6. KESIMPULAN

Dokumen yang terkait

Clustering Dokumen Skripsi Dengan Menggunakan Hierarchical Agglomerative Clustering

Implementasi Metode Naïve Bayes-Certainty Factor Untuk Diagnosis Penyakit Pada Kelamin Laki-Laki

Evaluasi dan Perbaikan Rancangan Pemesanan PCB Pada Situs Sfe- Electronics.com

Evaluasi Dan Perancangan User Interface Untuk Meningkatkan User Experience Menggunakan Metode Human Centered Design Dan Heuristic Evaluation Pada Aplikasi EzyPay

Optimasi Penjadwalan Shift Jaga Dokter di IGD Menggunakan Algoritme Genetika (Studi Kasus Rumah Sakit di Malang)

Sistem Deteksi dan Pengenalan Jenis Rambu Lalu Lintas Menggunakan Metode Shape Detection Pada Raspberry Pi

Evaluasi Pada Variasi Proses Bisnis Penanganan Pengaduan Dengan Menerapkan Process Mining Dan Quality Evaluation Framework (QEF) (Studi Kasus : Perusahaan Daerah Air Minum Kota Malang)

Klasifikasi Berita pada Twitter Menggunakan Metode Naive Bayes dan Query Expansion Hipernim-Hiponim

Peramalan Persediaan Spare Part Sepeda Motor Menggunakan Algoritme Backpropagation

Evaluasi Pada Variasi Proses Bisnis Layanan Donor Darah (Studi Kasus : UTD PMI Kota Malang)

Dokumen yang Anda mencari sudah siap untuk unduhkan