Pemisahan rangkaian kata tokenization. Penyaringan filtration Konversi term ke bentuk dasar stemming.

1. Penghapusan format dan markup dari dalam surat.

Tahap ini menghapus semua tag markup dan format khusus dari surat, terutama pada surat yang mempunyai banyak tag dan format seperti surat XHTML.

2. Pemisahan rangkaian kata tokenization.

Tokenization adalah tugas memisahkan deretan kata di dalam kalimat, paragraf atau halaman menjadi token atau potongan kata tunggal atau termmed word. Tahapan ini juga menghilangkan karakter-karakter tertentu seperti tanda baca dan mengubah semua token ke bentuk huruf kecil lower case.

3. Penyaringan filtration

Pada tahapan ini ditentukan term mana yang akan digunakan untuk merepresentasikan surat sehingga dapat mendeskripsikan isi surat dan membedakan surat tersebut dari surat lain di dalam koleksi. Term yang sering dipakai tidak dapat digunakan untuk tujuan ini, setidaknya karena dua hal. Pertama, jumlah surat yang relevan terhadap suatu query kemungkinan besar merupakan bagian kecil dari koleksi. Term yang efektif dalam pemisahan surat yang relevan dari surat tidak relevan kemungkinan besar adalah term yang muncul pada sedikit surat. Kedua, term yang muncul dalam banyak surat tidak mencerminkan definisi dari topik atau sub-topik surat. Karena itu, term yang sering digunakan dianggap sebagai stop-word dan dihapus.

4. Konversi term ke bentuk dasar stemming.

Stemming adalah proses konversi term ke bentuk umumnya, sebagaimana dijelaskan sebelumnya. Surat dapat pula diekspansi dengan mencarikan sinonim bagi term-term tertentu di dalamnya. Sinonim adalah kata-kata yang mempunyai pengertian serupa tetapi berbeda dari sudut pandang morfologis. Seperti stemming, operasi ini bertujuan menemukan suatu kelompok kata terkait. Akan tetapi sinonim bekerja berdasarkan pada thesaurus, tidak berbagi-pakai term stem. Jika pengguna memasukkan query “heart disease” maka query diekspansi untuk mengakomodasi semua sinonim dari disease seperti ailment, complication, condition, disorder, fever, ill, illness, infirmity, malady, sickness, dan lain-lain.

Pemisahan rangkaian kata tokenization. Penyaringan filtration Konversi term ke bentuk dasar stemming.

1. Penghapusan format dan markup dari dalam surat.

2. Pemisahan rangkaian kata tokenization.

3. Penyaringan filtration

4. Konversi term ke bentuk dasar stemming.

5. Pemberian bobot terhadap term weighting.

Parts

Dokumen yang terkait

Perancangan sistem pembuatan surat keterangan mahasiswa berbasis web pada Fakultas Sains Dan Teknologi Prodi Teknik Informatika Universitas Islam Negeri Syarif Hidayatullah Jakarta

Pengembangan aplikasi pembelajaran berbasiskan Teknologi Vidio on Demand pada Fakultas Sains dan Teknologi UIN Syahid Jakarta

PENERAPAN OPTICAL CHARACTER RECOGNITION (OCR) UNTUK RANCANG BANGUN APLIKASI TRANSLATOR PADA PLATFORM ANDROID

The Optical Character Recognition (OCR) System With Template Matching.

TUGAS AKHIR APLIKASI PENGENALAN PLAT NOMOR KENDARAAN DENGAN Aplikasi Pengenalan Plat Nomor Kendaraan Dengan Metode Optical Character Recognition (OCR).

PENDAHULUAN Aplikasi Pengenalan Plat Nomor Kendaraan Dengan Metode Optical Character Recognition (OCR).

NASKAH PUBLIKASI Aplikasi Pengenalan Plat Nomor Kendaraan Dengan Metode Optical Character Recognition (OCR).

Institutional Repository | Satya Wacana Christian University: Pemanfaatan Teknologi Optical Character Recognition (OCR) untuk Mengenali Alfabet Yunani Berbasis Android

PENGEMBANGAN APLIKASI ANDROID UNTUK PENGENALAN CITRA NOMOR SERTIFIKAT HALAL MUI DENGAN LIBRARY TESSERACT OPTICAL CHARACTER RECOGNITION (OCR)

PENERAPAN OPTICAL CHARACTER RECOGNITION (OCR) UNTUK PEMBACAAN METERAN LISTRIK PLN

Dukungan

Links

Pemisahan rangkaian kata tokenization. Penyaringan filtration Konversi term ke bentuk dasar stemming.

1. Penghapusan format dan markup dari dalam surat.

2. Pemisahan rangkaian kata tokenization.

3. Penyaringan filtration

4. Konversi term ke bentuk dasar stemming.

5. Pemberian bobot terhadap term weighting.

Parts

Dokumen yang terkait

Perancangan sistem pembuatan surat keterangan mahasiswa berbasis web pada Fakultas Sains Dan Teknologi Prodi Teknik Informatika Universitas Islam Negeri Syarif Hidayatullah Jakarta

Pengembangan aplikasi pembelajaran berbasiskan Teknologi Vidio on Demand pada Fakultas Sains dan Teknologi UIN Syahid Jakarta

PENERAPAN OPTICAL CHARACTER RECOGNITION (OCR) UNTUK RANCANG BANGUN APLIKASI TRANSLATOR PADA PLATFORM ANDROID

The Optical Character Recognition (OCR) System With Template Matching.

TUGAS AKHIR APLIKASI PENGENALAN PLAT NOMOR KENDARAAN DENGAN Aplikasi Pengenalan Plat Nomor Kendaraan Dengan Metode Optical Character Recognition (OCR).

PENDAHULUAN Aplikasi Pengenalan Plat Nomor Kendaraan Dengan Metode Optical Character Recognition (OCR).

NASKAH PUBLIKASI Aplikasi Pengenalan Plat Nomor Kendaraan Dengan Metode Optical Character Recognition (OCR).

Institutional Repository | Satya Wacana Christian University: Pemanfaatan Teknologi Optical Character Recognition (OCR) untuk Mengenali Alfabet Yunani Berbasis Android

PENGEMBANGAN APLIKASI ANDROID UNTUK PENGENALAN CITRA NOMOR SERTIFIKAT HALAL MUI DENGAN LIBRARY TESSERACT OPTICAL CHARACTER RECOGNITION (OCR)

PENERAPAN OPTICAL CHARACTER RECOGNITION (OCR) UNTUK PEMBACAAN METERAN LISTRIK PLN

Dokumen yang Anda mencari sudah siap untuk unduhkan