Latar Belakang - Text Pre Processing v2

Text Pre- Text Pre-

Processing Processing

M. Ali Fauzi M. Ali Fauzi

Latar Belakang Latar Belakang

Latar Belakang Latar Belakang

 Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Tidak semua kata mencerminkan makna/

isi yang terkandung dalam sebuah

dokumen.

 Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

Tidak semua kata mencerminkan makna/

isi yang terkandung dalam sebuah

dokumen.

Latar Belakang Latar Belakang

  Dokumen-dokumen Dokumen-dokumen yang yang ada ada kebanyakan tidak memiliki struktur kebanyakan tidak memiliki struktur yang pasti sehingga informasi di yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara dalamnya tidak bisa diekstrak secara langsung. langsung.

  Tidak semua kata Tidak semua kata mencerminkan mencerminkan makna/isi yang terkandung dalam makna/isi yang terkandung dalam sebuah dokumen. sebuah dokumen.

Latar Belakang Latar Belakang

  Preprocessing Preprocessing diperlukan diperlukan untuk untuk memilih kata yang akan digunakan memilih kata yang akan digunakan sebagai indeks sebagai indeks

Indeks ini adalah kata-kata yang Indeks ini adalah kata-kata yang

mewakili mewakili dokumen dokumen yang yang nantinya nantinya

digunakan untuk membuat pemodelan digunakan untuk membuat pemodelan

untuk Information Retrieval maupun untuk Information Retrieval maupun

aplikasi teks mining lain.aaaaaaaaa aplikasi teks mining lain.aaaaaaaaa

Latar Belakang Latar Belakang

  Preprocessing Preprocessing diperlukan diperlukan untuk untuk memilih kata yang akan digunakan memilih kata yang akan digunakan sebagai indeks sebagai indeks

  Indeks Indeks ini adalah kata-kata yang ini adalah kata-kata yang mewakili dokumen mewakili dokumen yang nantinya yang nantinya digunakan untuk membuat pemodelan digunakan untuk membuat pemodelan untuk Information Retrieval maupun untuk Information Retrieval maupun aplikasi teks mining lain. aplikasi teks mining lain.

Defnisi Defnisi

Defnisi Defnisi Pemrosesan Pemrosesan Teks Teks (Text (Text Preprocessing) adalah suatu proses Preprocessing) adalah suatu proses

pengubahan pengubahan bentuk data yang belum bentuk data yang belum

terstruktur terstruktur menjadi menjadi data data yang yang

terstruktur terstruktur sesuai dengan kebutuhan, sesuai dengan kebutuhan,

untuk proses mining yang lebih lanjut untuk proses mining yang lebih lanjut (sentiment (sentiment analysis, analysis, peringkasan, peringkasan, clustering dokumen, etc.). clustering dokumen, etc.).

Singkatnya… Singkatnya…



Preprocessing adalah merubah teks Preprocessing adalah merubah teks menjadi term index menjadi term index

Tujuan: menghasilkan sebuah set term Tujuan: menghasilkan sebuah set term

index yang bisa mewakili dokumen index yang bisa mewakili dokumen

Singkatnya… Singkatnya…



Preprocessing adalah merubah teks

Preprocessing adalah merubah teks

menjadi term index menjadi term index



Tujuan: menghasilkan sebuah set Tujuan: menghasilkan sebuah set

term index term index yang bisa mewakili yang bisa mewakili

dokumen dokumen

Langkah-langkah

Text Pre-processing

Langkah-langkah

Text Pre-processing

Langkah-langkah umum dalam Text Pre-processing Langkah-langkah umum dalam Text Pre-processing

Langkah 1 : Parsing Langkah 1 : Parsing



Tulisan dalam sebuah dokumen bisa Tulisan dalam sebuah dokumen bisa jadi terdiri dari berbagai macam jadi terdiri dari berbagai macam bahasa, character sets, dan format; bahasa, character sets, dan format;

Sering juga, dalam satu dokumen yang Sering juga, dalam satu dokumen yang

sama berisi tulisan dari beberapa sama berisi tulisan dari beberapa

bahasa. Misal, sebuah email berbahasa bahasa. Misal, sebuah email berbahasa

Indonesia dengan lampiran PDF Indonesia dengan lampiran PDF berbahasa Inggris.aa berbahasa Inggris.aa

Langkah 1 : Parsing Langkah 1 : Parsing



Tulisan dalam sebuah dokumen bisa Tulisan dalam sebuah dokumen bisa jadi terdiri dari jadi terdiri dari berbagai macam berbagai macam bahasa, character sets, dan format; bahasa, character sets, dan format;



Sering juga, dalam satu dokumen yang Sering juga, dalam satu dokumen yang sama berisi tulisan dari sama berisi tulisan dari beberapa beberapa

bahasa bahasa. Misal, sebuah email . Misal, sebuah email

berbahasa Indonesia dengan lampiran berbahasa Indonesia dengan lampiran PDF berbahasa Inggris. PDF berbahasa Inggris.

Langkah 1 : Parsing Langkah 1 : Parsing

Parsing Dokumen berurusan dengan Parsing Dokumen berurusan dengan

pengenalan dan “pemecahan” pengenalan dan “pemecahan”

struktur dokumen menjadi komponen- struktur dokumen menjadi komponen- komponen terpisah. Pada langkah komponen terpisah. Pada langkah preprocessing ini, kita menentukan preprocessing ini, kita menentukan mana yang dijadikan mana yang dijadikan satu unit satu unit

dokumen dokumen; ;

Langkah 1 : Parsing Langkah 1 : Parsing

Contoh, Contoh, email dengan 4 lampiran bisa email dengan 4 lampiran bisa dipisah menjadi dipisah menjadi 5 dokumen : 1 5 dokumen : 1 dokumen yang merepresentasikan isi dokumen yang merepresentasikan isi (body) dari email dan 4 dokumen dari (body) dari email dan 4 dokumen dari masing-masing lampiran masing-masing lampiran

Langkah 1 : Parsing Langkah 1 : Parsing



Contoh lain, buku dengan 100 Contoh lain, buku dengan 100

halaman halaman bisa dipisah menjadi 100 bisa dipisah menjadi 100 dokumen; masing-masing halaman dokumen ; masing-masing halaman

menjadi 1 dokumen menjadi 1 dokumen

Satu tweet bisa dijadikan sebagai 1 Satu tweet bisa dijadikan sebagai 1

dokumen. Begitu juga dengan sebuah dokumen. Begitu juga dengan sebuah

koemntar pada forum atau review koemntar pada forum atau review produk. produk.

Langkah 1 : Parsing Langkah 1 : Parsing



Contoh lain, buku dengan 100 Contoh lain, buku dengan 100

halaman bisa dipisah menjadi 100 halaman bisa dipisah menjadi 100 dokumen dokumen; masing-masing halaman ; masing-masing halaman

menjadi 1 dokumen menjadi 1 dokumen



Satu tweet bisa dijadikan sebagai 1 Satu tweet bisa dijadikan sebagai

1 dokumen. Begitu juga dengan sebuah dokumen . Begitu juga dengan sebuah

komentar pada forum atau review komentar pada forum atau review produk. produk.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Lebih populer disebut Lexing atau Lebih populer disebut Lexing atau

Tokenization / Tokenisasi Tokenization / Tokenisasi

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis



Tokenisasi Tokenisasi adalah adalah proses proses

pemotongan pemotongan string string input input berdasarkan tiap kata penyusunnya. berdasarkan tiap kata penyusunnya.

Pada prinsipnya proses ini adalah Pada prinsipnya proses ini adalah

memisahkan setiap kata yang memisahkan setiap kata yang

menyusun suatu dokumen. menyusun suatu dokumen.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis



Tokenisasi Tokenisasi adalah adalah proses proses

pemotongan pemotongan string string input input berdasarkan tiap kata penyusunnya. berdasarkan tiap kata penyusunnya.



Pada prinsipnya proses ini adalah Pada prinsipnya proses ini adalah

memisahkan memisahkan setiap kata yang setiap kata yang menyusun suatu dokumen. menyusun suatu dokumen.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Pada Pada proses proses ini ini dilakukan dilakukan

penghilangan angka, tanda baca dan penghilangan angka, tanda baca dan

karakter karakter selain huruf alfabet, karena selain huruf alfabet, karena

karakter-karakter tersebut dianggap karakter-karakter tersebut dianggap sebagai pemisah kata (delimiter) dan sebagai pemisah kata (delimiter) dan tidak memiliki pengaruh terhadap tidak memiliki pengaruh terhadap pemrosesan teks. pemrosesan teks.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Pada tahapan ini juga dilakukan Pada tahapan ini juga dilakukan proses proses case folding, dimana semua case folding , dimana semua huruf diubah menjadi huruf kecil. huruf diubah menjadi huruf kecil.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis



Pada tahapan ini juga Cleaning Pada tahapan ini juga Cleaning

Cleaning adalah proses membersihkan Cleaning adalah proses membersihkan

dokumen dokumen dari dari komponen-komponen komponen-komponen yang tidak memiliki hubungan dengan yang tidak memiliki hubungan dengan informasi yang ada pada dokumen, informasi yang ada pada dokumen,

seperti tag html, link, dan script seperti tag html, link, dan script

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis



Pada tahapan ini juga Cleaning Pada tahapan ini juga Cleaning



Cleaning Cleaning adalah adalah proses proses

membersihkan membersihkan dokumen dokumen dari dari

komponen-komponen komponen-komponen yang yang tidak tidak memiliki hubungan dengan informasi memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag yang ada pada dokumen, seperti tag html, link, dan script, dsb. html, link, dan script, dsb.

Tokens, Types, and Terms Tokens, Types, and Terms



Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”

Token adalah kata-kata yang dipisah- Token adalah kata-kata yang dipisah-

pisah dari teks aslinya tanpa pisah dari teks aslinya tanpa

mempertimbangkan adanya duplikasi mempertimbangkan adanya duplikasi Tokennya: “culo”, “dan”, “boyo”, Tokennya: “culo”, “dan”, “boyo”,

“bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”,

“rumah”, “boyo” “rumah”, “boyo”

Tokens, Types, and Terms Tokens, Types, and Terms



Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”



Token adalah kata-kata yang dipisah- Token adalah kata-kata yang dipisah- pisah dari teks aslinya tanpa pisah dari teks aslinya tanpa mempertimbangkan adanya duplikasi mempertimbangkan adanya duplikasi

Tokennya: “culo”, “dan”, “boyo”, Tokennya: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”

Tokens, Types, and Terms Tokens, Types, and Terms



Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”



Token: “culo”, “dan”, “boyo”, Token : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”

Tokens, Types, and Terms Tokens, Types, and Terms

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” Type adalah token yang memperhatikan adanya duplikasi kata.

Ketika ada duplikasi hanya dituliskan sekali saja.

Type: “culo”, “dan”, “boyo”, “bermain”, 

Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”

 Type adalah token yang memperhatikan adanya duplikasi kata.

Ketika ada duplikasi hanya dituliskan sekali saja.

Type: “culo”, “dan”, “boyo”, “bermain”,

Tokens, Types, and Terms Tokens, Types, and Terms



Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”



Type adalah token yang Type adalah token yang memperhatikan adanya duplikasi kata. memperhatikan adanya duplikasi kata.

Ketika ada duplikasi hanya dituliskan Ketika ada duplikasi hanya dituliskan sekali saja. sekali saja.



Type: “culo”, “dan”, “boyo”, Type : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”,

Tokens, Types, and Terms Tokens, Types, and Terms



Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”



Type: “culo”, “dan”, “boyo”, Type : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”,

Tokens, Types, and Terms Tokens, Types, and Terms



Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”



Term adalah type yang sudah Term adalah type yang sudah dinormalisasi (dilakukan stemming, dinormalisasi (dilakukan stemming, fltering, dsb) fltering, dsb)

Term : “culo”, “boyo”, “main”, “bola”, Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah” “depan”, “rumah”

Tokens, Types, and Terms Tokens, Types, and Terms



Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”



Term adalah type yang sudah Term adalah type yang sudah dinormalisasi (dilakukan stemming, dinormalisasi (dilakukan stemming, fltering, dsb) fltering, dsb)



Term : “culo”, “boyo”, “main”, “bola”, Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah” “depan”, “rumah”

Tokens, Types, and Terms Tokens, Types, and Terms



Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”



Type: “culo”, “dan”, “boyo”, Type : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah” “rumah”

Contoh Tokenisasi Contoh Tokenisasi

Teks English They are applied to the words in the

texts.

they are applied to

Tokens the

words in the

Contoh Tokenisasi Contoh Tokenisasi Teks Bahasa Namanya adalah Santiago. Santiago sudah memutuskan untuk mencari sang alkemis

namanya adalah santiago santiago

Tokens

sudah memutuskan untuk mencari sang

Langkah 3 : Stopword Langkah 3 : Stopword Removal Removal



Disebut juga Filtering Disebut juga Filtering

Filtering adalah tahap pengambilan Filtering adalah tahap pengambilan

dari hasil token, yaitu kata-kata apa saja dari hasil token, yaitu kata-kata apa saja

yang akan digunakan untuk yang akan digunakan untuk merepresentasikan dokumen. merepresentasikan dokumen.

Langkah 3 : Stopword Removal Langkah 3 : Stopword Removal

Disebut juga Filtering Filtering adalah tahap pemilihan kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen.



Disebut juga Filtering

 Filtering adalah tahap pemilihan

kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen.

Stopword Removal : Metode Stopword Removal : Metode



Algoritma stoplist Algoritma stoplist

Stoplist atau stopword adalah Stoplist atau stopword adalah kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif

(tidak penting) yang dapat dibuang (tidak penting) yang dapat dibuang

dengan pendekatan bag-of-words. dengan pendekatan bag-of-words.

Stopword Removal : Metode Stopword Removal : Metode



Algoritma stoplist Algoritma stoplist



Stoplist atau stopword adalah

Stoplist atau stopword adalah

kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif

(tidak penting) (tidak penting) yang dapat dibuang yang dapat dibuang

dengan pendekatan bag-of-words. dengan pendekatan bag-of-words.

Stopword Removal : Metode Stopword Removal : Metode



Algoritma stoplist Algoritma stoplist



Kita memiliki database kumpulan Kita memiliki database kumpulan

kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif

(tidak penting), kemudian kalau (tidak penting), kemudian kalau

hasil tokenisasi itu ada yang hasil tokenisasi itu ada yang merupakan kata tidak penting dalam merupakan kata tidak penting dalam database tersebut, maka hasil database tersebut, maka hasil

Stopword Removal : Metode Stopword Removal : Metode



Algoritma stoplist Algoritma stoplist



Contoh stopwords adalah i’m, you, Contoh stopwords adalah i’m, you, one, two, they, are, to, the, in, dst. one, two, they, are, to, the, in, dst.

Stopword Removal : Metode Stopword Removal : Metode

Hasil Token Hasil Filtering

they

are
applied

applied to

the
words

words in

the
texts

Stopword Removal : Metode Stopword Removal : Metode



Algoritma stoplist Algoritma stoplist



Contoh stopwords adalah untuk, sang, Contoh stopwords adalah untuk, sang, sudah, adalah, dst. sudah, adalah, dst.

Stopword Removal : Metode Stopword Removal : Metode

Hasil Token Hasil Filtering

namanya namanya adalah

santiago

santiago santiago santiago sudah

memutuskan memutuskan untuk
mencari

mencari sang

Stopword Removal : Metode Stopword Removal : Metode



Algoritma wordlist Algoritma wordlist

Wordlist adalah kata-kata yang Wordlist adalah kata-kata yang deskriptif (penting) yang harus deskriptif (penting) yang harus

disimpan dan tidak dibuang dengan disimpan dan tidak dibuang dengan

pendekatan bag-of-words. pendekatan bag-of-words.

Stopword Removal : Metode Stopword Removal : Metode



Algoritma wordlist Algoritma wordlist



Wordlist adalah kata-kata yang

Wordlist adalah kata-kata yang

deskriptif (penting) deskriptif (penting) yang harus yang harus

disimpan dan tidak dibuang dengan disimpan dan tidak dibuang dengan pendekatan bag-of-words. pendekatan bag-of-words.

Stopword Removal : Metode Stopword Removal : Metode



Algoritma wordlist Algoritma wordlist



Kita memiliki database kumpulan Kita memiliki database kumpulan

kata-kata yang deskriptif kata-kata yang deskriptif (penting), (penting), kemudian kalau hasil kemudian kalau hasil

tokenisasi itu ada yang merupakan tokenisasi itu ada yang merupakan kata penting dalam database tersebut, kata penting dalam database tersebut, maka hasil tokenisasi itu disimpan. maka hasil tokenisasi itu disimpan.

Stopword Removal : Metode Stopword Removal : Metode



Algoritma wordlist Algoritma wordlist



Contoh wordlist adalah applied, Contoh wordlist adalah applied, words, texts, dst. words, texts, dst.

Stopword Removal : Metode Stopword Removal : Metode

Hasil Token Hasil Filtering

they

are
applied

applied to

the
words

words in

the
texts

Stopword Removal : Metode Stopword Removal : Metode

Algoritma wordlist Contoh wordlist adalah santiago, namanya, mencari, memutuskan, alkemis, dst.



Algoritma wordlist



Contoh wordlist adalah santiago, namanya, mencari, memutuskan, alkemis, dst.

Stopword Removal : Metode Stopword Removal : Metode

Hasil Token Hasil Filtering

namanya namanya adalah

santiago

santiago santiago santiago sudah

memutuskan memutuskan untuk
mencari

mencari sang

Using Stop Words or Using Stop Words or Not? Not?



Kebanyakan aplikasi text mining Kebanyakan aplikasi text mining ataupun IR ataupun IR bisa ditingkatkan bisa ditingkatkan performanya dengan penghilangan performanya dengan penghilangan stopword. stopword.

Akan tetapi, secara umum Web search Akan tetapi, secara umum Web search engines seperti google sebenarnya tidak engines seperti google sebenarnya tidak menghilangkan stop word, karena menghilangkan stop word, karena algoritma yang mereka gunakan berhasil algoritma yang mereka gunakan berhasil

Using Stop Words or Using Stop Words or Not? Not?



Kebanyakan aplikasi text mining Kebanyakan aplikasi text mining ataupun IR bisa ditingkatkan ataupun IR bisa ditingkatkan performanya dengan penghilangan performanya dengan penghilangan stopword. stopword.



Akan tetapi, secara umum Web search Akan tetapi, secara umum Web search engines seperti engines seperti google sebenarnya google sebenarnya

tidak menghilangkan tidak menghilangkan stop word, stop word,

karena algoritma yang mereka karena algoritma yang mereka

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection

Langkah ini bisa menangkap informasi Langkah ini bisa menangkap informasi dalam teks dalam teks melebihi kemampuan dari melebihi kemampuan dari metode tokenisasi / bag-of-word murni. metode tokenisasi / bag-of-word murni.

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection

Pada langkah ini tidak hanya dilakukan Pada langkah ini tidak hanya dilakukan tokenisasi per kata, namun juga tokenisasi per kata, namun juga mendeteksi adanya 2 kata atau lebih mendeteksi adanya 2 kata atau lebih yang menjadi yang menjadi frase. frase .

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection 

Contoh, dari dokumen ini : “search Contoh, dari dokumen ini : “search

engines are the most visible engines are the most visible information retrieval applications” information retrieval applications” 

Terdapat dua buah frase, yaitu Terdapat dua buah frase , yaitu

“search engines” dan “information “search engines” dan “information retrieval”. retrieval”.

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection 

Phrase detection bisa dilakukan

Phrase detection bisa dilakukan

dengan beberapa cara : menggunakan dengan beberapa cara : menggunakan

rule/aturan rule/aturan (misal dengan (misal dengan

menganggap dua kata yang sering menganggap dua kata yang sering muncul berurutan sebagai frase), bisa muncul berurutan sebagai frase), bisa dengan dengan syntactic analysis, and syntactic analysis , and kombinasi kombinasi keduanya. keduanya.

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection 

Metode umum yang diguakan adalah Metode umum yang diguakan adalah

penggunaan thesauri penggunaan thesauri untuk untuk mendeteksi adanya frase. mendeteksi adanya frase.

Contoh : Pada thesauri tersebut terdapat Contoh : Pada thesauri tersebut terdapat

daftar frase-fase dalam bahasa daftar frase-fase dalam bahasa

tertentu, kemudia kita bandingkan kata- tertentu, kemudia kita bandingkan kata- kata dalam teks apakah mengandung kata dalam teks apakah mengandung frase-frase dalam thesauri tersebut atau frase-frase dalam thesauri tersebut atau

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection 

Metode umum yang diguakan adalah Metode umum yang diguakan adalah

penggunaan thesauri penggunaan thesauri untuk untuk mendeteksi adanya frase. mendeteksi adanya frase.



Contoh : Pada thesauri tersebut Contoh : Pada thesauri tersebut terdapat terdapat daftar frase-fase dalam daftar frase-fase dalam bahasa tertentu, kemudia kita bahasa tertentu, kemudia kita bandingkan kata-kata dalam teks bandingkan kata-kata dalam teks apakah mengandung frase-frase apakah mengandung frase-frase

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection 

Kelemahanya, tahap ini butuh Kelemahanya, tahap ini butuh komputasi yang cukup lama komputasi yang cukup lama



Kebanyakan aplikasi teks mining atau Kebanyakan aplikasi teks mining atau

IR tidak menggunakan Phrase

Detection Detection

Sudah cukup dengan Token per Kata Sudah cukup dengan Token per Kata Akan tetapi, sebenarnya pemanfaatan Akan tetapi, sebenarnya pemanfaatan

Langkah 4 : Phrase

Kebanyakan aplikasi teks mining atau

Akan tetapi, sebenarnya pemanfaatan



Sudah cukup dengan Token per Kata

Detection 

IR tidak menggunakan Phrase

Detection

Kelemahanya, tahap ini butuh komputasi yang cukup lama



Sudah cukup dengan Token per Kata Akan tetapi, sebenarnya pemanfaatan

Detection

IR tidak menggunakan Phrase

Kelemahanya, tahap ini butuh komputasi yang cukup lama Kebanyakan aplikasi teks mining atau



Langkah 5 : Stemming Langkah 5 : Stemming

Stemming Stemming adalah proses pengubahan adalah proses pengubahan

bentuk kata bentuk kata menjadi kata dasar atau menjadi kata dasar atau

tahap mencari root kata dari tiap tahap mencari root kata dari tiap kata hasil fltering. kata hasil fltering.

Langkah 5 : Stemming Langkah 5 : Stemming

Dengan dilakukanya proses stemming Dengan dilakukanya proses stemming setiap kata berimbuhan akan berubah setiap kata berimbuhan akan berubah menjadi kata dasar, dengan demikian menjadi kata dasar, dengan demikian dapat lebih dapat lebih mengoptimalkan proses mengoptimalkan proses

teks mining teks mining. .

Langkah 5 : Stemming Langkah 5 : Stemming

Hasil Token Hasil Filtering Hasil Stemming

they

are
applied applied appl>the
words words word in
the
texts

Langkah 5 : Stemming Langkah 5 : Stemming

Hasil Token Hasil Filtering Hasil Stemming

namanya namanya nama adalah - - santiago santiago santiago santiago santiago santiago sudah - - memutuskan memutuskan putus untuk - - mencari mencari cari sang - -

Langkah 5 : Stemming Langkah 5 : Stemming



Implementasi proses stemming Implementasi proses stemming sangat beragam , tergantung dengan sangat beragam , tergantung dengan

bahasa bahasa dari dokumen. dari dokumen.

Beberapa metode untuk Stemming : Beberapa metode untuk Stemming : Porter Stemmer (English & Indonesia) Porter Stemmer (English & Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Nazief-Adriani (Indonesia) Stemming Nazief-Adriani (Indonesia)

Langkah 5 : Stemming Langkah 5 : Stemming

Implementasi proses stemming sangat beragam , tergantung dengan

bahasa dari dokumen.

Beberapa metode untuk Stemming :

 Porter Stemmer (English & Indonesia)  Stemming Arifn-Setiono (Indonesia)  Stemming Nazief-Adriani (Indonesia)



Implementasi proses stemming sangat beragam , tergantung dengan

bahasa dari dokumen.



Beberapa metode untuk Stemming :

 Porter Stemmer (English & Indonesia)

 Stemming Arifn-Setiono (Indonesia)

 Stemming Nazief-Adriani (Indonesia)

Stemming : Metode Stemming : Metode



Algorithmic: Membuat sebuah Algorithmic: Membuat sebuah

algoritma yang mendeteksi algoritma yang mendeteksi imbuhan imbuhan. Jika ada awalan atau . Jika ada awalan atau

akhiran yang seperti imbuhan, maka akhiran yang seperti imbuhan, maka akan dibuang. akan dibuang.

Stemming : Metode Stemming : Metode



Algorithmic Algorithmic

Stemming : Metode Stemming : Metode



Metode Algorithmic Metode Algorithmic



Kelebihan : relatif cepat Kelebihan : relatif cepat

Kekurangan : beberapa algoritma Kekurangan : beberapa algoritma terkadang salah mendeteksi terkadang salah mendeteksi

imbuhan, sehingga ada beberapa kata imbuhan, sehingga ada beberapa kata

yang bukan imbuhan tapi dihilangkan yang bukan imbuhan tapi dihilangkan Contoh : makan -> mak; an dideteksi Contoh : makan -> mak; an dideteksi

Stemming : Metode Stemming : Metode

Metode Algorithmic Kelebihan : relatif cepat Kekurangan : beberapa algoritma

terkadang salah mendeteksi imbuhan, sehingga ada beberapa

kata yang bukan imbuhan tapi dihilangkan Contoh : makan -> mak; an dideteksi



Metode Algorithmic



Kelebihan : relatif cepat



Kekurangan : beberapa algoritma

terkadang salah mendeteksi imbuhan , sehingga ada beberapa

kata yang bukan imbuhan tapi dihilangkan

Contoh : makan -> mak; an dideteksi

Stemming : Metode Stemming : Metode



Metode Algorithmic Metode Algorithmic



Kelebihan : relatif cepat Kelebihan : relatif cepat



Kekurangan : beberapa algoritma Kekurangan : beberapa algoritma

terkadang salah mendeteksi terkadang salah mendeteksi imbuhan, sehingga ada beberapa imbuhan , sehingga ada beberapa

kata yang bukan imbuhan tapi kata yang bukan imbuhan tapi dihilangkan dihilangkan



Contoh : makan -> mak; an dideteksi Contoh : makan -> mak; an dideteksi

Stemming : Metode Stemming : Metode



Metode Lemmatization Metode Lemmatization



Lemmatization : Stemming Lemmatization : Stemming berdasarkan berdasarkan kamus kamus

Menggunakan vocabulary dan Menggunakan vocabulary dan morphological analysis dari kata untuk morphological analysis dari kata untuk menghilangkan imbuhan dan menghilangkan imbuhan dan

dikembalikan ke bentuk dasar dari kata. dikembalikan ke bentuk dasar dari kata.

Stemming : Metode Stemming : Metode



Metode Lemmatization Metode Lemmatization



Lemmatization : Stemming Lemmatization : Stemming berdasarkan berdasarkan kamus kamus



Menggunakan vocabulary dan Menggunakan vocabulary dan

morphological analysis dari kata untuk morphological analysis dari kata untuk

menghilangkan imbuhan dan menghilangkan imbuhan dan dikembalikan ke bentuk dasar dari dikembalikan ke bentuk dasar dari

Stemming : Metode Stemming : Metode



Metode Lemmatization Metode Lemmatization



Stemming ini bagus untuk kata-kata Stemming ini bagus untuk kata-kata yang mengalami yang mengalami perubahan tidak perubahan tidak

beraturan (terutama dalam english) beraturan (terutama dalam english)

Contoh : “see” -> “see”, “saw”, atau Contoh : “see” -> “see”, “saw”, atau “seen” “seen”

Jika ada kata “see”, “saw”, atau “seen”, Jika ada kata “see”, “saw”, atau “seen”,

bisa dikembalikan ke bentuk aslinya bisa dikembalikan ke bentuk aslinya

Stemming : Metode Stemming : Metode



Metode Lemmatization Metode Lemmatization



Stemming ini bagus untuk kata-kata Stemming ini bagus untuk kata-kata yang mengalami yang mengalami perubahan tidak perubahan tidak

beraturan (terutama dalam english) beraturan (terutama dalam english) 

Contoh : “see” -> “see”, “saw”, atau Contoh : “see” -> “see”, “saw”, atau “seen” “seen”



Jika ada kata “see”, “saw”, atau Jika ada kata “see”, “saw”, atau “seen”, bisa dikembalikan ke bentuk “seen”, bisa dikembalikan ke bentuk

Stemming : Metode Stemming : Metode



Algoritma Algoritma Porter Porter Stemming Stemming merupakan algoritma yang paling merupakan algoritma yang paling populer. Ditemukan oleh Martin populer. Ditemukan oleh Martin Porter pada tahun 1980. Porter pada tahun 1980.



Mekanisme algoritma tersebut dalam Mekanisme algoritma tersebut dalam mencari kata dasar suatu kata mencari kata dasar suatu kata berimbuhan, yaitu dengan membuang berimbuhan, yaitu dengan membuang

atau lebih tepatnya atau lebih tepatnya

imbuhan–imbuhan ( imbuhan–imbuhan (

akhiran pada kata–kata bahasa Inggris karena akhiran pada kata–kata bahasa Inggris karena

Langkah 5 : Stemming Langkah 5 : Stemming

Hasil Hasil Hasil Type Term

Token Filtering Stemming

they

applied applied apply apply appl
the

Langkah 5 : Stemming Langkah 5 : Stemming Hasil Token Hasil Filtering Hasil Stemming Type Term

namanya namanya nama nama nama adalah - - - - santiago santiago santiago santiago santiago santiago santiago santiago

^{- -} sudah - - - - memutusk an memutusk an putus putus putus untuk - - - - mencari mencari cari cari cari sang - - - -

Studi Kasus Studi Kasus

Dokumen Ke-i ₁ _{hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan} _{pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak} ^{Isi Dokumen} _{dalam setahun belakangan ini, pengaksesan KRS diganti ke SIAM (sebelumnya} _ijazah. wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat ₂ _{berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa} _{buruk (lambat loading dan bahkan sampai logout dengan sendirinya). *KRS tidak hanya} menggunakan SINERGI). saat menggunakan sinergi, ftur serta kecepatan akses sangat _{handal dan nyaman. tapi setelah diganti menggunakan SIAM, keadaan berbalik menjadi} ₃ _{inggris (atau yang kurang beruntung dalam ujian toeic-nya). sehingga mereka tidak bisa} _{saya rasa ini sangat menghambat teman-teman yang memang lemah dibidang bahasa} _{sertifkat TOEIC, sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre.} Assalamualaikum Wr. Wb. yang menjadi salah satu syarat untuk bisa ujian kompre ada ₄ _{keberatan dengan biaya itu? terima kasih atas perhatiannya.} _{pak/bu dosen saya mau minta keringanan biaya proposional dan spp ,soalnya ibu saya} fokus untuk ujian kompre-nya. terima kasih..

Studi Kasus Studi Kasus

Dokume _{n Ke-i} _{Isi Dokumen Tokenisasi Filtering Stemming}

1 ^{pembukaan daftar wisuda dan pelaksanaan} ^{nya lebih baik d umumkan di web ub tidak} ^{hanya di fakultas. sehingga memudahkan} ^{mahasiswa yang ada di luar kota.} _{pelaksanaan wisuda sebaiknya terjadwal} _{tidak tergantung pada kuota. sehingga lebih} _{cepat mendapat ijazah.} ^{pembukaan daftar wisuda dan} ^{pelaksanaan nya lebih baik d umumkan} ^{di web ub tidak hanya di fakultas} ^{sehingga memudahkan mahasiswa} _{yang ada di luar kota pelaksanaan} _{wisuda sebaiknya terjadwal tidak} _{tergantung pada kuota sehingga lebih} _{cepat mendapat ijazah} ^{pembukaan daftar wisuda} ^{pelaksanaan umumkan web} ^{ub fakultas memudahkan} _{mahasiswa kota pelaksanaan} _{wisuda sebaiknya terjadwal} _{tergantung kuota cepat ijazah} ^{buka daftar wisuda} ^{laksana umum web ub} ^{fakultas mudah} ^{mahasiswa kota} _{laksana wisuda baik} _{jadwal gantung kuota} _{cepat ijazah}

Latar Belakang - Text Pre Processing v2

Latar Belakang Latar Belakang

Latar Belakang Latar Belakang

Latar Belakang Latar Belakang

Latar Belakang Latar Belakang

Defnisi Defnisi

Singkatnya… Singkatnya…

Singkatnya… Singkatnya…

Langkah 1 : Parsing Langkah 1 : Parsing

Langkah 1 : Parsing Langkah 1 : Parsing

Langkah 1 : Parsing Langkah 1 : Parsing

Langkah 1 : Parsing Langkah 1 : Parsing

Langkah 1 : Parsing Langkah 1 : Parsing

Langkah 1 : Parsing Langkah 1 : Parsing

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

Contoh Tokenisasi Contoh Tokenisasi

Contoh Tokenisasi Contoh Tokenisasi Teks Bahasa Namanya adalah Santiago. Santiago sudah memutuskan untuk mencari sang alkemis

Langkah 3 : Stopword Langkah 3 : Stopword Removal Removal

Langkah 3 : Stopword Removal Langkah 3 : Stopword Removal

Stopword Removal : Metode Stopword Removal : Metode

Stopword Removal : Metode Stopword Removal : Metode

Using Stop Words or Using Stop Words or Not? Not?

Using Stop Words or Using Stop Words or Not? Not?

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection

Langkah 4 : Phrase Langkah 4 : Phrase

Detection Detection

Langkah 4 : Phrase Langkah 4 : Phrase

Langkah 4 : Phrase Langkah 4 : Phrase

Langkah 4 : Phrase Langkah 4 : Phrase

Langkah 4 : Phrase Langkah 4 : Phrase

Langkah 4 : Phrase Langkah 4 : Phrase

Langkah 4 : Phrase

Langkah 4 : Phrase

Langkah 5 : Stemming Langkah 5 : Stemming

Langkah 5 : Stemming Langkah 5 : Stemming

Langkah 5 : Stemming Langkah 5 : Stemming

Langkah 5 : Stemming Langkah 5 : Stemming

Langkah 5 : Stemming Langkah 5 : Stemming

Langkah 5 : Stemming Langkah 5 : Stemming

Stemming : Metode Stemming : Metode

Stemming : Metode Stemming : Metode

Stemming : Metode Stemming : Metode

Stemming : Metode Stemming : Metode

Stemming : Metode Stemming : Metode

Stemming : Metode Stemming : Metode

Stemming : Metode Stemming : Metode

Stemming : Metode Stemming : Metode

Stemming : Metode Stemming : Metode

Langkah 5 : Stemming Langkah 5 : Stemming

Langkah 5 : Stemming Langkah 5 : Stemming Hasil Token Hasil Filtering Hasil Stemming Type Term

Studi Kasus Studi Kasus

Studi Kasus Studi Kasus

Dokumen yang terkait

Anggono Raras TS. Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Soekarno Hatta No 448 Bandung E-Mail: rarasanggonogmail.com ABSTRAK - View of KAJIAN KEBUTUHAN PELANGGAN, BAURAN PEMASARAN, NILAI PELANGGAN, DAN LOYALITAS PELANGGAN

Sunu Puguh Hayu Triono Program Studi Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Sukarno Hatta No.448 Bandung e-mail: sunu.puguhymail.com ABSTRAK - View of PENGARUH ENTREPRENEURIAL SELF EFFICACY DAN PERSONAL NETWORKS TERHADAP NIAT MAHASI

Henny Utarsih Program Studi Manajemen Sekolah Tinggi Ilmu (STIE) Ekuitas, Jl. PH.H. Mustofa No.31 Bandung Email : henny.utarsihgmail.com ABSTRAK - View of PENGARUH EXPERIENTAL MARKETING, CUSTOMER RELATIONSHIP MARKETING, DAN CUSTOMER SATISFACTION TERHADAP

(Studi Kasus pada Perusahaan yang Go Publik di Bursa Efek Indonesia) Dedi Gumilar Program Studi Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Sukarno Hatta No.448 Bandung Email : goo.meelargmail.com ABSTRAK - View of Beta: Tinjauan atas Op

Program Studi Magister Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Soekarno Hatta No. 448 Bandung Email : gurawandayonayahoo.co.id ridhaagus86gmail.com ABSTRAK - View of PENGARUH KOMPENSASI TIDAK LANGSUNG DAN LINGKUNGAN KERJA FISIK TERHA

Program Studi Magister Manajemen Sekolah Tinggi Ilmu Ekonomi Indonesia Membangun Jl. Soekarno Hatta No. 448 Bandung Email : ade.salmangmail.com NDC_75yahoo.com ABSTRAK - View of ANALISA CAPITAL BUDGETING SEBAGAI ALAT UNTUK MENILAI KELAYAKAN RENCANA INVEST

Program Studi S1 Administrasi Bisnis, Fakultas Komunikasi dan Bisnis, Universitas Telkom Email : geniamegaymail.com Email : yahyaarwiyahtelkomuniversity.ac.id ABSTRAK - View of PENGARUH NILAI-NILAI RELIGIUS PEGAWAI DALAM MENDUKUNG PENINGKATAN KINERJA PEGA

View of ANALISIS FAKTOR - FAKTOR YANG MEMOTIVASI FANSCLUB A.R.M.Y MENONTON KONSER BTS THE WINGS TOUR IN JAKARTA

Faktor - Faktor Determinan Kurs Rupiah Terhadap Dollar Amerika

Persamaan Saint Venant - Exner Model Parabolik

Dokumen yang Anda mencari sudah siap untuk unduhkan