Latar Belakang - Text Pre Processing v2

  Text Pre- Text Pre-

Processing Processing

M. Ali Fauzi M. Ali Fauzi

  

Latar Belakang Latar Belakang

Latar Belakang Latar Belakang

   Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

  Tidak semua kata mencerminkan makna/

isi yang terkandung dalam sebuah

dokumen.

   Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

  Tidak semua kata mencerminkan makna/

isi yang terkandung dalam sebuah

dokumen.

Latar Belakang Latar Belakang

    Dokumen-dokumen Dokumen-dokumen yang yang ada ada kebanyakan tidak memiliki struktur kebanyakan tidak memiliki struktur yang pasti sehingga informasi di yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara dalamnya tidak bisa diekstrak secara langsung. langsung.

    Tidak semua kata Tidak semua kata mencerminkan mencerminkan makna/isi yang terkandung dalam makna/isi yang terkandung dalam sebuah dokumen. sebuah dokumen.

Latar Belakang Latar Belakang

    Preprocessing Preprocessing diperlukan diperlukan untuk untuk memilih kata yang akan digunakan memilih kata yang akan digunakan sebagai indeks sebagai indeks

Indeks ini adalah kata-kata yang Indeks ini adalah kata-kata yang

mewakili mewakili dokumen dokumen yang yang nantinya nantinya

digunakan untuk membuat pemodelan digunakan untuk membuat pemodelan

untuk Information Retrieval maupun untuk Information Retrieval maupun

aplikasi teks mining lain.aaaaaaaaa aplikasi teks mining lain.aaaaaaaaa

Latar Belakang Latar Belakang

    Preprocessing Preprocessing diperlukan diperlukan untuk untuk memilih kata yang akan digunakan memilih kata yang akan digunakan sebagai indeks sebagai indeks

    Indeks Indeks ini adalah kata-kata yang ini adalah kata-kata yang mewakili dokumen mewakili dokumen yang nantinya yang nantinya digunakan untuk membuat pemodelan digunakan untuk membuat pemodelan untuk Information Retrieval maupun untuk Information Retrieval maupun aplikasi teks mining lain. aplikasi teks mining lain.

Defnisi Defnisi

  Defnisi Defnisi Pemrosesan Pemrosesan Teks Teks (Text (Text Preprocessing) adalah suatu proses Preprocessing) adalah suatu proses

  

pengubahan pengubahan bentuk data yang belum bentuk data yang belum

terstruktur terstruktur menjadi menjadi data data yang yang

terstruktur terstruktur sesuai dengan kebutuhan, sesuai dengan kebutuhan,

  untuk proses mining yang lebih lanjut untuk proses mining yang lebih lanjut (sentiment (sentiment analysis, analysis, peringkasan, peringkasan, clustering dokumen, etc.). clustering dokumen, etc.).

Singkatnya… Singkatnya…

  

  Preprocessing adalah merubah teks Preprocessing adalah merubah teks menjadi term index menjadi term index

  

Tujuan: menghasilkan sebuah set term Tujuan: menghasilkan sebuah set term

index yang bisa mewakili dokumen index yang bisa mewakili dokumen

Singkatnya… Singkatnya…

  

  Preprocessing adalah merubah teks

  Preprocessing adalah merubah teks

  menjadi term index menjadi term index

  

  Tujuan: menghasilkan sebuah set Tujuan: menghasilkan sebuah set

  term index term index yang bisa mewakili yang bisa mewakili

  dokumen dokumen

  Langkah-langkah

Text Pre-processing

  Langkah-langkah

Text Pre-processing

  Langkah-langkah umum dalam Text Pre-processing Langkah-langkah umum dalam Text Pre-processing

Langkah 1 : Parsing Langkah 1 : Parsing

  

  Tulisan dalam sebuah dokumen bisa Tulisan dalam sebuah dokumen bisa jadi terdiri dari berbagai macam jadi terdiri dari berbagai macam bahasa, character sets, dan format; bahasa, character sets, dan format;

  

Sering juga, dalam satu dokumen yang Sering juga, dalam satu dokumen yang

sama berisi tulisan dari beberapa sama berisi tulisan dari beberapa

bahasa. Misal, sebuah email berbahasa bahasa. Misal, sebuah email berbahasa

Indonesia dengan lampiran PDF Indonesia dengan lampiran PDF berbahasa Inggris.aa berbahasa Inggris.aa

Langkah 1 : Parsing Langkah 1 : Parsing

  

  Tulisan dalam sebuah dokumen bisa Tulisan dalam sebuah dokumen bisa jadi terdiri dari jadi terdiri dari berbagai macam berbagai macam bahasa, character sets, dan format; bahasa, character sets, dan format;

  

  Sering juga, dalam satu dokumen yang Sering juga, dalam satu dokumen yang sama berisi tulisan dari sama berisi tulisan dari beberapa beberapa

  bahasa bahasa. Misal, sebuah email . Misal, sebuah email

  berbahasa Indonesia dengan lampiran berbahasa Indonesia dengan lampiran PDF berbahasa Inggris. PDF berbahasa Inggris.

Langkah 1 : Parsing Langkah 1 : Parsing

  

Parsing Dokumen berurusan dengan Parsing Dokumen berurusan dengan

pengenalan dan “pemecahan” pengenalan dan “pemecahan”

  struktur dokumen menjadi komponen- struktur dokumen menjadi komponen- komponen terpisah. Pada langkah komponen terpisah. Pada langkah preprocessing ini, kita menentukan preprocessing ini, kita menentukan mana yang dijadikan mana yang dijadikan satu unit satu unit

  dokumen dokumen; ;

Langkah 1 : Parsing Langkah 1 : Parsing

  Contoh, Contoh, email dengan 4 lampiran bisa email dengan 4 lampiran bisa dipisah menjadi dipisah menjadi 5 dokumen : 1 5 dokumen : 1 dokumen yang merepresentasikan isi dokumen yang merepresentasikan isi (body) dari email dan 4 dokumen dari (body) dari email dan 4 dokumen dari masing-masing lampiran masing-masing lampiran

Langkah 1 : Parsing Langkah 1 : Parsing

  

  Contoh lain, buku dengan 100 Contoh lain, buku dengan 100

  halaman halaman bisa dipisah menjadi 100 bisa dipisah menjadi 100 dokumen; masing-masing halaman dokumen ; masing-masing halaman

  menjadi 1 dokumen menjadi 1 dokumen

  Satu tweet bisa dijadikan sebagai 1 Satu tweet bisa dijadikan sebagai 1

dokumen. Begitu juga dengan sebuah dokumen. Begitu juga dengan sebuah

koemntar pada forum atau review koemntar pada forum atau review produk. produk.

Langkah 1 : Parsing Langkah 1 : Parsing

  

  Contoh lain, buku dengan 100 Contoh lain, buku dengan 100

  halaman bisa dipisah menjadi 100 halaman bisa dipisah menjadi 100 dokumen dokumen; masing-masing halaman ; masing-masing halaman

  menjadi 1 dokumen menjadi 1 dokumen

  

  Satu tweet bisa dijadikan sebagai 1 Satu tweet bisa dijadikan sebagai

  1 dokumen. Begitu juga dengan sebuah dokumen . Begitu juga dengan sebuah

  komentar pada forum atau review komentar pada forum atau review produk. produk.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  Lebih populer disebut Lexing atau Lebih populer disebut Lexing atau

  Tokenization / Tokenisasi Tokenization / Tokenisasi

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  

  Tokenisasi Tokenisasi adalah adalah proses proses

  pemotongan pemotongan string string input input berdasarkan tiap kata penyusunnya. berdasarkan tiap kata penyusunnya.

  Pada prinsipnya proses ini adalah Pada prinsipnya proses ini adalah

  

memisahkan setiap kata yang memisahkan setiap kata yang

menyusun suatu dokumen. menyusun suatu dokumen.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  

  Tokenisasi Tokenisasi adalah adalah proses proses

  pemotongan pemotongan string string input input berdasarkan tiap kata penyusunnya. berdasarkan tiap kata penyusunnya.

  

  Pada prinsipnya proses ini adalah Pada prinsipnya proses ini adalah

  memisahkan memisahkan setiap kata yang setiap kata yang menyusun suatu dokumen. menyusun suatu dokumen.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  Pada Pada proses proses ini ini dilakukan dilakukan

  

penghilangan angka, tanda baca dan penghilangan angka, tanda baca dan

karakter karakter selain huruf alfabet, karena selain huruf alfabet, karena

  karakter-karakter tersebut dianggap karakter-karakter tersebut dianggap sebagai pemisah kata (delimiter) dan sebagai pemisah kata (delimiter) dan tidak memiliki pengaruh terhadap tidak memiliki pengaruh terhadap pemrosesan teks. pemrosesan teks.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  Pada tahapan ini juga dilakukan Pada tahapan ini juga dilakukan proses proses case folding, dimana semua case folding , dimana semua huruf diubah menjadi huruf kecil. huruf diubah menjadi huruf kecil.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  

  Pada tahapan ini juga Cleaning Pada tahapan ini juga Cleaning

  

Cleaning adalah proses membersihkan Cleaning adalah proses membersihkan

  dokumen dokumen dari dari komponen-komponen komponen-komponen yang tidak memiliki hubungan dengan yang tidak memiliki hubungan dengan informasi yang ada pada dokumen, informasi yang ada pada dokumen,

  seperti tag html, link, dan script seperti tag html, link, dan script

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  

  Pada tahapan ini juga Cleaning Pada tahapan ini juga Cleaning

  

  Cleaning Cleaning adalah adalah proses proses

  membersihkan membersihkan dokumen dokumen dari dari

  komponen-komponen komponen-komponen yang yang tidak tidak memiliki hubungan dengan informasi memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag yang ada pada dokumen, seperti tag html, link, dan script, dsb. html, link, dan script, dsb.

  

Tokens, Types, and Terms Tokens, Types, and Terms

  Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”

  Token adalah kata-kata yang dipisah- Token adalah kata-kata yang dipisah-

  pisah dari teks aslinya tanpa pisah dari teks aslinya tanpa

  mempertimbangkan adanya duplikasi mempertimbangkan adanya duplikasi Tokennya: “culo”, “dan”, “boyo”, Tokennya: “culo”, “dan”, “boyo”,

  “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”,

  “rumah”, “boyo” “rumah”, “boyo”

  

Tokens, Types, and Terms Tokens, Types, and Terms

  Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”

  

  Token adalah kata-kata yang dipisah- Token adalah kata-kata yang dipisah- pisah dari teks aslinya tanpa pisah dari teks aslinya tanpa mempertimbangkan adanya duplikasi mempertimbangkan adanya duplikasi

  Tokennya: “culo”, “dan”, “boyo”, Tokennya: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”

  

Tokens, Types, and Terms Tokens, Types, and Terms

  Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”

  

  Token adalah kata-kata yang dipisah- Token adalah kata-kata yang dipisah- pisah dari teks aslinya tanpa pisah dari teks aslinya tanpa mempertimbangkan adanya duplikasi mempertimbangkan adanya duplikasi

  

  Token: “culo”, “dan”, “boyo”, Token : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”

  

Tokens, Types, and Terms Tokens, Types, and Terms

  Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” Type adalah token yang memperhatikan adanya duplikasi kata.

  Ketika ada duplikasi hanya dituliskan sekali saja.

  Type: “culo”, “dan”, “boyo”, “bermain”, 

  Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

   Type adalah token yang memperhatikan adanya duplikasi kata.

  Ketika ada duplikasi hanya dituliskan sekali saja.

  Type: “culo”, “dan”, “boyo”, “bermain”,

  

Tokens, Types, and Terms Tokens, Types, and Terms

  Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”

  

  Type adalah token yang Type adalah token yang memperhatikan adanya duplikasi kata. memperhatikan adanya duplikasi kata.

  Ketika ada duplikasi hanya dituliskan Ketika ada duplikasi hanya dituliskan sekali saja. sekali saja.

  

  Type: “culo”, “dan”, “boyo”, Type : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”,

  

Tokens, Types, and Terms Tokens, Types, and Terms

  Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”

  

  Token: “culo”, “dan”, “boyo”, Token : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”

  

  Type: “culo”, “dan”, “boyo”, Type : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”,

  

Tokens, Types, and Terms Tokens, Types, and Terms

  Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”

  

  Term adalah type yang sudah Term adalah type yang sudah dinormalisasi (dilakukan stemming, dinormalisasi (dilakukan stemming, fltering, dsb) fltering, dsb)

  Term : “culo”, “boyo”, “main”, “bola”, Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah” “depan”, “rumah”

  

Tokens, Types, and Terms Tokens, Types, and Terms

  Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”

  

  Term adalah type yang sudah Term adalah type yang sudah dinormalisasi (dilakukan stemming, dinormalisasi (dilakukan stemming, fltering, dsb) fltering, dsb)

  

  Term : “culo”, “boyo”, “main”, “bola”, Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah” “depan”, “rumah”

  

Tokens, Types, and Terms Tokens, Types, and Terms

  Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”

  

  Token: “culo”, “dan”, “boyo”, Token : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”

  

  Type: “culo”, “dan”, “boyo”, Type : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah” “rumah”

Contoh Tokenisasi Contoh Tokenisasi

  

Teks English They are applied to the words in the

texts.

  they are applied to

  Tokens the

  words in the

Contoh Tokenisasi Contoh Tokenisasi Teks Bahasa Namanya adalah Santiago. Santiago sudah memutuskan untuk mencari sang alkemis

  namanya adalah santiago santiago

  Tokens

  sudah memutuskan untuk mencari sang

Langkah 3 : Stopword Langkah 3 : Stopword Removal Removal

  

  Disebut juga Filtering Disebut juga Filtering

  Filtering adalah tahap pengambilan Filtering adalah tahap pengambilan

dari hasil token, yaitu kata-kata apa saja dari hasil token, yaitu kata-kata apa saja

yang akan digunakan untuk yang akan digunakan untuk merepresentasikan dokumen. merepresentasikan dokumen.

Langkah 3 : Stopword Removal Langkah 3 : Stopword Removal

  Disebut juga FilteringFiltering adalah tahap pemilihan kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen.

  

  Disebut juga Filtering

   Filtering adalah tahap pemilihan

  kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen.

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma stoplist Algoritma stoplist

  Stoplist atau stopword adalah Stoplist atau stopword adalah kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif

(tidak penting) yang dapat dibuang (tidak penting) yang dapat dibuang

dengan pendekatan bag-of-words. dengan pendekatan bag-of-words.

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma stoplist Algoritma stoplist

  

  Stoplist atau stopword adalah

  Stoplist atau stopword adalah

kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif

(tidak penting) (tidak penting) yang dapat dibuang yang dapat dibuang

  dengan pendekatan bag-of-words. dengan pendekatan bag-of-words.

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma stoplist Algoritma stoplist

  

  Kita memiliki database kumpulan Kita memiliki database kumpulan

  

kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif

(tidak penting), kemudian kalau (tidak penting), kemudian kalau

  hasil tokenisasi itu ada yang hasil tokenisasi itu ada yang merupakan kata tidak penting dalam merupakan kata tidak penting dalam database tersebut, maka hasil database tersebut, maka hasil

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma stoplist Algoritma stoplist

  

  Contoh stopwords adalah i’m, you, Contoh stopwords adalah i’m, you, one, two, they, are, to, the, in, dst. one, two, they, are, to, the, in, dst.

  

Stopword Removal : Metode Stopword Removal : Metode

Hasil Token Hasil Filtering

  they

  • are
  • applied

  applied to

  • the
  • words

  words in

  • the
  • texts

Stopword Removal : Metode Stopword Removal : Metode

  

  Algoritma stoplist Algoritma stoplist

  

  Contoh stopwords adalah untuk, sang, Contoh stopwords adalah untuk, sang, sudah, adalah, dst. sudah, adalah, dst.

  

Stopword Removal : Metode Stopword Removal : Metode

Hasil Token Hasil Filtering

  namanya namanya adalah

  • santiago

  santiago santiago santiago sudah

  • memutuskan memutuskan untuk
  • mencari

  mencari sang

Stopword Removal : Metode Stopword Removal : Metode

  

  Algoritma wordlist Algoritma wordlist

  Wordlist adalah kata-kata yang Wordlist adalah kata-kata yang deskriptif (penting) yang harus deskriptif (penting) yang harus

disimpan dan tidak dibuang dengan disimpan dan tidak dibuang dengan

pendekatan bag-of-words. pendekatan bag-of-words.

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma wordlist Algoritma wordlist

  

  Wordlist adalah kata-kata yang

  

Wordlist adalah kata-kata yang

deskriptif (penting) deskriptif (penting) yang harus yang harus

  disimpan dan tidak dibuang dengan disimpan dan tidak dibuang dengan pendekatan bag-of-words. pendekatan bag-of-words.

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma wordlist Algoritma wordlist

  

  Kita memiliki database kumpulan Kita memiliki database kumpulan

  kata-kata yang deskriptif kata-kata yang deskriptif (penting), (penting), kemudian kalau hasil kemudian kalau hasil

  tokenisasi itu ada yang merupakan tokenisasi itu ada yang merupakan kata penting dalam database tersebut, kata penting dalam database tersebut, maka hasil tokenisasi itu disimpan. maka hasil tokenisasi itu disimpan.

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma wordlist Algoritma wordlist

  

  Contoh wordlist adalah applied, Contoh wordlist adalah applied, words, texts, dst. words, texts, dst.

  

Stopword Removal : Metode Stopword Removal : Metode

Hasil Token Hasil Filtering

  they

  • are
  • applied

  applied to

  • the
  • words

  words in

  • the
  • texts

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma wordlist Contoh wordlist adalah santiago, namanya, mencari, memutuskan, alkemis, dst.

  

  Algoritma wordlist

  

  Contoh wordlist adalah santiago, namanya, mencari, memutuskan, alkemis, dst.

  

Stopword Removal : Metode Stopword Removal : Metode

Hasil Token Hasil Filtering

  namanya namanya adalah

  • santiago

  santiago santiago santiago sudah

  • memutuskan memutuskan untuk
  • mencari

  mencari sang

Using Stop Words or Using Stop Words or Not? Not?

  

  Kebanyakan aplikasi text mining Kebanyakan aplikasi text mining ataupun IR ataupun IR bisa ditingkatkan bisa ditingkatkan performanya dengan penghilangan performanya dengan penghilangan stopword. stopword.

  Akan tetapi, secara umum Web search Akan tetapi, secara umum Web search engines seperti google sebenarnya tidak engines seperti google sebenarnya tidak menghilangkan stop word, karena menghilangkan stop word, karena algoritma yang mereka gunakan berhasil algoritma yang mereka gunakan berhasil

Using Stop Words or Using Stop Words or Not? Not?

  

  Kebanyakan aplikasi text mining Kebanyakan aplikasi text mining ataupun IR bisa ditingkatkan ataupun IR bisa ditingkatkan performanya dengan penghilangan performanya dengan penghilangan stopword. stopword.

  

  Akan tetapi, secara umum Web search Akan tetapi, secara umum Web search engines seperti engines seperti google sebenarnya google sebenarnya

  tidak menghilangkan tidak menghilangkan stop word, stop word,

  karena algoritma yang mereka karena algoritma yang mereka

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection

  Langkah ini bisa menangkap informasi Langkah ini bisa menangkap informasi dalam teks dalam teks melebihi kemampuan dari melebihi kemampuan dari metode tokenisasi / bag-of-word murni. metode tokenisasi / bag-of-word murni.

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection

  Pada langkah ini tidak hanya dilakukan Pada langkah ini tidak hanya dilakukan tokenisasi per kata, namun juga tokenisasi per kata, namun juga mendeteksi adanya 2 kata atau lebih mendeteksi adanya 2 kata atau lebih yang menjadi yang menjadi frase. frase .

Langkah 4 : Phrase Langkah 4 : Phrase

  Detection Detection

  Contoh, dari dokumen ini : “search Contoh, dari dokumen ini : “search

  engines are the most visible engines are the most visible information retrieval applications” information retrieval applications”

  Terdapat dua buah frase, yaitu Terdapat dua buah frase , yaitu

  “search engines” dan “information “search engines” dan “information retrieval”. retrieval”.

Langkah 4 : Phrase Langkah 4 : Phrase

  Detection Detection

  Phrase detection bisa dilakukan

  Phrase detection bisa dilakukan

  dengan beberapa cara : menggunakan dengan beberapa cara : menggunakan

  rule/aturan rule/aturan (misal dengan (misal dengan

  menganggap dua kata yang sering menganggap dua kata yang sering muncul berurutan sebagai frase), bisa muncul berurutan sebagai frase), bisa dengan dengan syntactic analysis, and syntactic analysis , and kombinasi kombinasi keduanya. keduanya.

Langkah 4 : Phrase Langkah 4 : Phrase

  Detection Detection

  Metode umum yang diguakan adalah Metode umum yang diguakan adalah

  penggunaan thesauri penggunaan thesauri untuk untuk mendeteksi adanya frase. mendeteksi adanya frase.

  Contoh : Pada thesauri tersebut terdapat Contoh : Pada thesauri tersebut terdapat

  daftar frase-fase dalam bahasa daftar frase-fase dalam bahasa

  tertentu, kemudia kita bandingkan kata- tertentu, kemudia kita bandingkan kata- kata dalam teks apakah mengandung kata dalam teks apakah mengandung frase-frase dalam thesauri tersebut atau frase-frase dalam thesauri tersebut atau

Langkah 4 : Phrase Langkah 4 : Phrase

  Detection Detection

  Metode umum yang diguakan adalah Metode umum yang diguakan adalah

  penggunaan thesauri penggunaan thesauri untuk untuk mendeteksi adanya frase. mendeteksi adanya frase.

  

  Contoh : Pada thesauri tersebut Contoh : Pada thesauri tersebut terdapat terdapat daftar frase-fase dalam daftar frase-fase dalam bahasa tertentu, kemudia kita bahasa tertentu, kemudia kita bandingkan kata-kata dalam teks bandingkan kata-kata dalam teks apakah mengandung frase-frase apakah mengandung frase-frase

Langkah 4 : Phrase Langkah 4 : Phrase

  Detection Detection

  Kelemahanya, tahap ini butuh Kelemahanya, tahap ini butuh komputasi yang cukup lama komputasi yang cukup lama

  

  Kebanyakan aplikasi teks mining atau Kebanyakan aplikasi teks mining atau

  IR tidak menggunakan Phrase

  IR tidak menggunakan Phrase

  Detection Detection

  Sudah cukup dengan Token per Kata Sudah cukup dengan Token per Kata Akan tetapi, sebenarnya pemanfaatan Akan tetapi, sebenarnya pemanfaatan

Langkah 4 : Phrase

Langkah 4 : Phrase

  Kebanyakan aplikasi teks mining atau

  Akan tetapi, sebenarnya pemanfaatan

  

  Sudah cukup dengan Token per Kata

  Detection

  IR tidak menggunakan Phrase

  Detection

  Detection

  Kelemahanya, tahap ini butuh komputasi yang cukup lama

  

  Sudah cukup dengan Token per Kata Akan tetapi, sebenarnya pemanfaatan

  Detection

  IR tidak menggunakan Phrase

  Kelemahanya, tahap ini butuh komputasi yang cukup lama Kebanyakan aplikasi teks mining atau

  

Langkah 5 : Stemming Langkah 5 : Stemming

  Stemming Stemming adalah proses pengubahan adalah proses pengubahan

bentuk kata bentuk kata menjadi kata dasar atau menjadi kata dasar atau

  tahap mencari root kata dari tiap tahap mencari root kata dari tiap kata hasil fltering. kata hasil fltering.

Langkah 5 : Stemming Langkah 5 : Stemming

  Dengan dilakukanya proses stemming Dengan dilakukanya proses stemming setiap kata berimbuhan akan berubah setiap kata berimbuhan akan berubah menjadi kata dasar, dengan demikian menjadi kata dasar, dengan demikian dapat lebih dapat lebih mengoptimalkan proses mengoptimalkan proses

  teks mining teks mining. .

Langkah 5 : Stemming Langkah 5 : Stemming

  

Hasil Token Hasil Filtering Hasil Stemming

  they

  • are
  • applied applied appl>the
  • words words word in
  • the
  • texts

Langkah 5 : Stemming Langkah 5 : Stemming

  

Hasil Token Hasil Filtering Hasil Stemming

  namanya namanya nama adalah - - santiago santiago santiago santiago santiago santiago sudah - - memutuskan memutuskan putus untuk - - mencari mencari cari sang - -

Langkah 5 : Stemming Langkah 5 : Stemming

  

  Implementasi proses stemming Implementasi proses stemming sangat beragam , tergantung dengan sangat beragam , tergantung dengan

  bahasa bahasa dari dokumen. dari dokumen.

  Beberapa metode untuk Stemming : Beberapa metode untuk Stemming : Porter Stemmer (English & Indonesia) Porter Stemmer (English & Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Nazief-Adriani (Indonesia) Stemming Nazief-Adriani (Indonesia)

Langkah 5 : Stemming Langkah 5 : Stemming

  Implementasi proses stemming sangat beragam , tergantung dengan

  bahasa dari dokumen.

  Beberapa metode untuk Stemming :

   Porter Stemmer (English & Indonesia)  Stemming Arifn-Setiono (Indonesia)  Stemming Nazief-Adriani (Indonesia)

  

  Implementasi proses stemming sangat beragam , tergantung dengan

  bahasa dari dokumen.

  

  Beberapa metode untuk Stemming :

   Porter Stemmer (English & Indonesia)

   Stemming Arifn-Setiono (Indonesia)

   Stemming Nazief-Adriani (Indonesia)

Stemming : Metode Stemming : Metode

  

  Algorithmic: Membuat sebuah Algorithmic: Membuat sebuah

  algoritma yang mendeteksi algoritma yang mendeteksi imbuhan imbuhan. Jika ada awalan atau . Jika ada awalan atau

  akhiran yang seperti imbuhan, maka akhiran yang seperti imbuhan, maka akan dibuang. akan dibuang.

  

Stemming : Metode Stemming : Metode

  Algorithmic Algorithmic

Stemming : Metode Stemming : Metode

  

  Metode Algorithmic Metode Algorithmic

  

  Kelebihan : relatif cepat Kelebihan : relatif cepat

  Kekurangan : beberapa algoritma Kekurangan : beberapa algoritma terkadang salah mendeteksi terkadang salah mendeteksi

imbuhan, sehingga ada beberapa kata imbuhan, sehingga ada beberapa kata

yang bukan imbuhan tapi dihilangkan yang bukan imbuhan tapi dihilangkan Contoh : makan -> mak; an dideteksi Contoh : makan -> mak; an dideteksi

Stemming : Metode Stemming : Metode

  Metode Algorithmic Kelebihan : relatif cepat Kekurangan : beberapa algoritma

  terkadang salah mendeteksi imbuhan, sehingga ada beberapa

  kata yang bukan imbuhan tapi dihilangkan Contoh : makan -> mak; an dideteksi

  

  Metode Algorithmic

  

  Kelebihan : relatif cepat

  

  Kekurangan : beberapa algoritma

  terkadang salah mendeteksi imbuhan , sehingga ada beberapa

  kata yang bukan imbuhan tapi dihilangkan

  

Contoh : makan -> mak; an dideteksi

Stemming : Metode Stemming : Metode

  

  Metode Algorithmic Metode Algorithmic

  

  Kelebihan : relatif cepat Kelebihan : relatif cepat

  

  Kekurangan : beberapa algoritma Kekurangan : beberapa algoritma

  terkadang salah mendeteksi terkadang salah mendeteksi imbuhan, sehingga ada beberapa imbuhan , sehingga ada beberapa

  kata yang bukan imbuhan tapi kata yang bukan imbuhan tapi dihilangkan dihilangkan

  

  Contoh : makan -> mak; an dideteksi Contoh : makan -> mak; an dideteksi

Stemming : Metode Stemming : Metode

  

  Metode Lemmatization Metode Lemmatization

  

  Lemmatization : Stemming Lemmatization : Stemming berdasarkan berdasarkan kamus kamus

  Menggunakan vocabulary dan Menggunakan vocabulary dan morphological analysis dari kata untuk morphological analysis dari kata untuk menghilangkan imbuhan dan menghilangkan imbuhan dan

dikembalikan ke bentuk dasar dari kata. dikembalikan ke bentuk dasar dari kata.

Stemming : Metode Stemming : Metode

  

  Metode Lemmatization Metode Lemmatization

  

  Lemmatization : Stemming Lemmatization : Stemming berdasarkan berdasarkan kamus kamus

  

  Menggunakan vocabulary dan Menggunakan vocabulary dan

  morphological analysis dari kata untuk morphological analysis dari kata untuk

  menghilangkan imbuhan dan menghilangkan imbuhan dan dikembalikan ke bentuk dasar dari dikembalikan ke bentuk dasar dari

Stemming : Metode Stemming : Metode

  

  Metode Lemmatization Metode Lemmatization

  

  Stemming ini bagus untuk kata-kata Stemming ini bagus untuk kata-kata yang mengalami yang mengalami perubahan tidak perubahan tidak

  

beraturan (terutama dalam english) beraturan (terutama dalam english)

Contoh : “see” -> “see”, “saw”, atau Contoh : “see” -> “see”, “saw”, atau “seen” “seen”

Jika ada kata “see”, “saw”, atau “seen”, Jika ada kata “see”, “saw”, atau “seen”,

bisa dikembalikan ke bentuk aslinya bisa dikembalikan ke bentuk aslinya

Stemming : Metode Stemming : Metode

  

  Metode Lemmatization Metode Lemmatization

  

  Stemming ini bagus untuk kata-kata Stemming ini bagus untuk kata-kata yang mengalami yang mengalami perubahan tidak perubahan tidak

  beraturan (terutama dalam english) beraturan (terutama dalam english) 

  Contoh : “see” -> “see”, “saw”, atau Contoh : “see” -> “see”, “saw”, atau “seen” “seen”

  

  Jika ada kata “see”, “saw”, atau Jika ada kata “see”, “saw”, atau “seen”, bisa dikembalikan ke bentuk “seen”, bisa dikembalikan ke bentuk

Stemming : Metode Stemming : Metode

  

  Algoritma Algoritma Porter Porter Stemming Stemming merupakan algoritma yang paling merupakan algoritma yang paling populer. Ditemukan oleh Martin populer. Ditemukan oleh Martin Porter pada tahun 1980. Porter pada tahun 1980.

  

  Mekanisme algoritma tersebut dalam Mekanisme algoritma tersebut dalam mencari kata dasar suatu kata mencari kata dasar suatu kata berimbuhan, yaitu dengan membuang berimbuhan, yaitu dengan membuang

  atau lebih tepatnya atau lebih tepatnya

  imbuhan–imbuhan ( imbuhan–imbuhan (

  akhiran pada kata–kata bahasa Inggris karena akhiran pada kata–kata bahasa Inggris karena

Langkah 5 : Stemming Langkah 5 : Stemming

  

Hasil Hasil Hasil Type Term

Token Filtering Stemming

  they

  • >are
  • applied applied apply apply appl
  • the
  • >words words word word word in >the

Langkah 5 : Stemming Langkah 5 : Stemming Hasil Token Hasil Filtering Hasil Stemming Type Term

  namanya namanya nama nama nama adalah - - - - santiago santiago santiago santiago santiago santiago santiago santiago

  • - - sudah - - - - memutusk an memutusk an putus putus putus untuk - - - - mencari mencari cari cari cari sang - - - -
  • Studi Kasus Studi Kasus

      Dokumen Ke-i 1 hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak Isi Dokumen dalam setahun belakangan ini, pengaksesan KRS diganti ke SIAM (sebelumnya ijazah. wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat 2 berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa buruk (lambat loading dan bahkan sampai logout dengan sendirinya). *KRS tidak hanya menggunakan SINERGI). saat menggunakan sinergi, ftur serta kecepatan akses sangat handal dan nyaman. tapi setelah diganti menggunakan SIAM, keadaan berbalik menjadi 3 inggris (atau yang kurang beruntung dalam ujian toeic-nya). sehingga mereka tidak bisa saya rasa ini sangat menghambat teman-teman yang memang lemah dibidang bahasa sertifkat TOEIC, sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre. Assalamualaikum Wr. Wb. yang menjadi salah satu syarat untuk bisa ujian kompre ada 4 keberatan dengan biaya itu? terima kasih atas perhatiannya. pak/bu dosen saya mau minta keringanan biaya proposional dan spp ,soalnya ibu saya fokus untuk ujian kompre-nya. terima kasih..

    Studi Kasus Studi Kasus

      Dokume n Ke-i Isi Dokumen Tokenisasi Filtering Stemming

      1 pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat ijazah. pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas sehingga memudahkan mahasiswa yang ada di luar kota pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota sehingga lebih cepat mendapat ijazah pembukaan daftar wisuda pelaksanaan umumkan web ub fakultas memudahkan mahasiswa kota pelaksanaan wisuda sebaiknya terjadwal tergantung kuota cepat ijazah buka daftar wisuda laksana umum web ub fakultas mudah mahasiswa kota laksana wisuda baik jadwal gantung kuota cepat ijazah

Dokumen yang terkait

Anggono Raras TS. Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Soekarno Hatta No 448 Bandung E-Mail: rarasanggonogmail.com ABSTRAK - View of KAJIAN KEBUTUHAN PELANGGAN, BAURAN PEMASARAN, NILAI PELANGGAN, DAN LOYALITAS PELANGGAN

0 0 15

Sunu Puguh Hayu Triono Program Studi Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Sukarno Hatta No.448 Bandung e-mail: sunu.puguhymail.com ABSTRAK - View of PENGARUH ENTREPRENEURIAL SELF EFFICACY DAN PERSONAL NETWORKS TERHADAP NIAT MAHASI

0 0 25

Henny Utarsih Program Studi Manajemen Sekolah Tinggi Ilmu (STIE) Ekuitas, Jl. PH.H. Mustofa No.31 Bandung Email : henny.utarsihgmail.com ABSTRAK - View of PENGARUH EXPERIENTAL MARKETING, CUSTOMER RELATIONSHIP MARKETING, DAN CUSTOMER SATISFACTION TERHADAP

0 0 24

(Studi Kasus pada Perusahaan yang Go Publik di Bursa Efek Indonesia) Dedi Gumilar Program Studi Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Sukarno Hatta No.448 Bandung Email : goo.meelargmail.com ABSTRAK - View of Beta: Tinjauan atas Op

0 0 17

Program Studi Magister Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Soekarno Hatta No. 448 Bandung Email : gurawandayonayahoo.co.id ridhaagus86gmail.com ABSTRAK - View of PENGARUH KOMPENSASI TIDAK LANGSUNG DAN LINGKUNGAN KERJA FISIK TERHA

0 0 22

Program Studi Magister Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Soekarno Hatta No. 448 Bandung Email : ade.salmangmail.com NDC_75yahoo.com ABSTRAK - View of ANALISA CAPITAL BUDGETING SEBAGAI ALAT UNTUK MENILAI KELAYAKAN RENCANA INVEST

1 1 20

Program Studi S1 Administrasi Bisnis, Fakultas Komunikasi dan Bisnis, Universitas Telkom Email : geniamegaymail.com Email : yahyaarwiyahtelkomuniversity.ac.id ABSTRAK - View of PENGARUH NILAI-NILAI RELIGIUS PEGAWAI DALAM MENDUKUNG PENINGKATAN KINERJA PEGA

0 0 13

View of ANALISIS FAKTOR - FAKTOR YANG MEMOTIVASI FANSCLUB A.R.M.Y MENONTON KONSER BTS THE WINGS TOUR IN JAKARTA

0 0 15

Faktor - Faktor Determinan Kurs Rupiah Terhadap Dollar Amerika

0 0 12

Persamaan Saint Venant - Exner Model Parabolik

0 1 39