Latar Belakang - Text Pre Processing v2
Text Pre- Text Pre-
Processing Processing
M. Ali Fauzi M. Ali Fauzi
Latar Belakang Latar Belakang
Latar Belakang Latar Belakang
Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.
Tidak semua kata mencerminkan makna/
isi yang terkandung dalam sebuah
dokumen. Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.
Tidak semua kata mencerminkan makna/
isi yang terkandung dalam sebuah
dokumen.Latar Belakang Latar Belakang
Dokumen-dokumen Dokumen-dokumen yang yang ada ada kebanyakan tidak memiliki struktur kebanyakan tidak memiliki struktur yang pasti sehingga informasi di yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara dalamnya tidak bisa diekstrak secara langsung. langsung.
Tidak semua kata Tidak semua kata mencerminkan mencerminkan makna/isi yang terkandung dalam makna/isi yang terkandung dalam sebuah dokumen. sebuah dokumen.
Latar Belakang Latar Belakang
Preprocessing Preprocessing diperlukan diperlukan untuk untuk memilih kata yang akan digunakan memilih kata yang akan digunakan sebagai indeks sebagai indeks
Indeks ini adalah kata-kata yang Indeks ini adalah kata-kata yang
mewakili mewakili dokumen dokumen yang yang nantinya nantinya
digunakan untuk membuat pemodelan digunakan untuk membuat pemodelan
untuk Information Retrieval maupun untuk Information Retrieval maupun
aplikasi teks mining lain.aaaaaaaaa aplikasi teks mining lain.aaaaaaaaaLatar Belakang Latar Belakang
Preprocessing Preprocessing diperlukan diperlukan untuk untuk memilih kata yang akan digunakan memilih kata yang akan digunakan sebagai indeks sebagai indeks
Indeks Indeks ini adalah kata-kata yang ini adalah kata-kata yang mewakili dokumen mewakili dokumen yang nantinya yang nantinya digunakan untuk membuat pemodelan digunakan untuk membuat pemodelan untuk Information Retrieval maupun untuk Information Retrieval maupun aplikasi teks mining lain. aplikasi teks mining lain.
Defnisi Defnisi
Defnisi Defnisi Pemrosesan Pemrosesan Teks Teks (Text (Text Preprocessing) adalah suatu proses Preprocessing) adalah suatu proses
pengubahan pengubahan bentuk data yang belum bentuk data yang belum
terstruktur terstruktur menjadi menjadi data data yang yang
terstruktur terstruktur sesuai dengan kebutuhan, sesuai dengan kebutuhan,
untuk proses mining yang lebih lanjut untuk proses mining yang lebih lanjut (sentiment (sentiment analysis, analysis, peringkasan, peringkasan, clustering dokumen, etc.). clustering dokumen, etc.).
Singkatnya… Singkatnya…
Preprocessing adalah merubah teks Preprocessing adalah merubah teks menjadi term index menjadi term index
Tujuan: menghasilkan sebuah set term Tujuan: menghasilkan sebuah set term
index yang bisa mewakili dokumen index yang bisa mewakili dokumenSingkatnya… Singkatnya…
Preprocessing adalah merubah teks
Preprocessing adalah merubah teks
menjadi term index menjadi term index
Tujuan: menghasilkan sebuah set Tujuan: menghasilkan sebuah set
term index term index yang bisa mewakili yang bisa mewakili
dokumen dokumen
Langkah-langkah
Text Pre-processing
Langkah-langkah
Text Pre-processing
Langkah-langkah umum dalam Text Pre-processing Langkah-langkah umum dalam Text Pre-processing
Langkah 1 : Parsing Langkah 1 : Parsing
Tulisan dalam sebuah dokumen bisa Tulisan dalam sebuah dokumen bisa jadi terdiri dari berbagai macam jadi terdiri dari berbagai macam bahasa, character sets, dan format; bahasa, character sets, dan format;
Sering juga, dalam satu dokumen yang Sering juga, dalam satu dokumen yang
sama berisi tulisan dari beberapa sama berisi tulisan dari beberapabahasa. Misal, sebuah email berbahasa bahasa. Misal, sebuah email berbahasa
Indonesia dengan lampiran PDF Indonesia dengan lampiran PDF berbahasa Inggris.aa berbahasa Inggris.aaLangkah 1 : Parsing Langkah 1 : Parsing
Tulisan dalam sebuah dokumen bisa Tulisan dalam sebuah dokumen bisa jadi terdiri dari jadi terdiri dari berbagai macam berbagai macam bahasa, character sets, dan format; bahasa, character sets, dan format;
Sering juga, dalam satu dokumen yang Sering juga, dalam satu dokumen yang sama berisi tulisan dari sama berisi tulisan dari beberapa beberapa
bahasa bahasa. Misal, sebuah email . Misal, sebuah email
berbahasa Indonesia dengan lampiran berbahasa Indonesia dengan lampiran PDF berbahasa Inggris. PDF berbahasa Inggris.
Langkah 1 : Parsing Langkah 1 : Parsing
Parsing Dokumen berurusan dengan Parsing Dokumen berurusan dengan
pengenalan dan “pemecahan” pengenalan dan “pemecahan”struktur dokumen menjadi komponen- struktur dokumen menjadi komponen- komponen terpisah. Pada langkah komponen terpisah. Pada langkah preprocessing ini, kita menentukan preprocessing ini, kita menentukan mana yang dijadikan mana yang dijadikan satu unit satu unit
dokumen dokumen; ;
Langkah 1 : Parsing Langkah 1 : Parsing
Contoh, Contoh, email dengan 4 lampiran bisa email dengan 4 lampiran bisa dipisah menjadi dipisah menjadi 5 dokumen : 1 5 dokumen : 1 dokumen yang merepresentasikan isi dokumen yang merepresentasikan isi (body) dari email dan 4 dokumen dari (body) dari email dan 4 dokumen dari masing-masing lampiran masing-masing lampiran
Langkah 1 : Parsing Langkah 1 : Parsing
Contoh lain, buku dengan 100 Contoh lain, buku dengan 100
halaman halaman bisa dipisah menjadi 100 bisa dipisah menjadi 100 dokumen; masing-masing halaman dokumen ; masing-masing halaman
menjadi 1 dokumen menjadi 1 dokumen
Satu tweet bisa dijadikan sebagai 1 Satu tweet bisa dijadikan sebagai 1
dokumen. Begitu juga dengan sebuah dokumen. Begitu juga dengan sebuah
koemntar pada forum atau review koemntar pada forum atau review produk. produk.Langkah 1 : Parsing Langkah 1 : Parsing
Contoh lain, buku dengan 100 Contoh lain, buku dengan 100
halaman bisa dipisah menjadi 100 halaman bisa dipisah menjadi 100 dokumen dokumen; masing-masing halaman ; masing-masing halaman
menjadi 1 dokumen menjadi 1 dokumen
Satu tweet bisa dijadikan sebagai 1 Satu tweet bisa dijadikan sebagai
1 dokumen. Begitu juga dengan sebuah dokumen . Begitu juga dengan sebuah
komentar pada forum atau review komentar pada forum atau review produk. produk.
Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis
Lebih populer disebut Lexing atau Lebih populer disebut Lexing atau
Tokenization / Tokenisasi Tokenization / Tokenisasi
Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis
Tokenisasi Tokenisasi adalah adalah proses proses
pemotongan pemotongan string string input input berdasarkan tiap kata penyusunnya. berdasarkan tiap kata penyusunnya.
Pada prinsipnya proses ini adalah Pada prinsipnya proses ini adalah
memisahkan setiap kata yang memisahkan setiap kata yang
menyusun suatu dokumen. menyusun suatu dokumen.Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis
Tokenisasi Tokenisasi adalah adalah proses proses
pemotongan pemotongan string string input input berdasarkan tiap kata penyusunnya. berdasarkan tiap kata penyusunnya.
Pada prinsipnya proses ini adalah Pada prinsipnya proses ini adalah
memisahkan memisahkan setiap kata yang setiap kata yang menyusun suatu dokumen. menyusun suatu dokumen.
Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis
Pada Pada proses proses ini ini dilakukan dilakukan
penghilangan angka, tanda baca dan penghilangan angka, tanda baca dan
karakter karakter selain huruf alfabet, karena selain huruf alfabet, karena
karakter-karakter tersebut dianggap karakter-karakter tersebut dianggap sebagai pemisah kata (delimiter) dan sebagai pemisah kata (delimiter) dan tidak memiliki pengaruh terhadap tidak memiliki pengaruh terhadap pemrosesan teks. pemrosesan teks.
Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis
Pada tahapan ini juga dilakukan Pada tahapan ini juga dilakukan proses proses case folding, dimana semua case folding , dimana semua huruf diubah menjadi huruf kecil. huruf diubah menjadi huruf kecil.
Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis
Pada tahapan ini juga Cleaning Pada tahapan ini juga Cleaning
Cleaning adalah proses membersihkan Cleaning adalah proses membersihkan
dokumen dokumen dari dari komponen-komponen komponen-komponen yang tidak memiliki hubungan dengan yang tidak memiliki hubungan dengan informasi yang ada pada dokumen, informasi yang ada pada dokumen,
seperti tag html, link, dan script seperti tag html, link, dan script
Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis
Pada tahapan ini juga Cleaning Pada tahapan ini juga Cleaning
Cleaning Cleaning adalah adalah proses proses
membersihkan membersihkan dokumen dokumen dari dari
komponen-komponen komponen-komponen yang yang tidak tidak memiliki hubungan dengan informasi memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag yang ada pada dokumen, seperti tag html, link, dan script, dsb. html, link, dan script, dsb.
Tokens, Types, and Terms Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”
Token adalah kata-kata yang dipisah- Token adalah kata-kata yang dipisah-
pisah dari teks aslinya tanpa pisah dari teks aslinya tanpa
mempertimbangkan adanya duplikasi mempertimbangkan adanya duplikasi Tokennya: “culo”, “dan”, “boyo”, Tokennya: “culo”, “dan”, “boyo”,
“bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”,
“rumah”, “boyo” “rumah”, “boyo”
Tokens, Types, and Terms Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”
Token adalah kata-kata yang dipisah- Token adalah kata-kata yang dipisah- pisah dari teks aslinya tanpa pisah dari teks aslinya tanpa mempertimbangkan adanya duplikasi mempertimbangkan adanya duplikasi
Tokennya: “culo”, “dan”, “boyo”, Tokennya: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”
Tokens, Types, and Terms Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”
Token adalah kata-kata yang dipisah- Token adalah kata-kata yang dipisah- pisah dari teks aslinya tanpa pisah dari teks aslinya tanpa mempertimbangkan adanya duplikasi mempertimbangkan adanya duplikasi
Token: “culo”, “dan”, “boyo”, Token : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”
Tokens, Types, and Terms Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” Type adalah token yang memperhatikan adanya duplikasi kata.
Ketika ada duplikasi hanya dituliskan sekali saja.
Type: “culo”, “dan”, “boyo”, “bermain”,
Text: “apakah culo dan boyo bermain bola di depan rumah boyo?”
Type adalah token yang memperhatikan adanya duplikasi kata.
Ketika ada duplikasi hanya dituliskan sekali saja.
Type: “culo”, “dan”, “boyo”, “bermain”,
Tokens, Types, and Terms Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”
Type adalah token yang Type adalah token yang memperhatikan adanya duplikasi kata. memperhatikan adanya duplikasi kata.
Ketika ada duplikasi hanya dituliskan Ketika ada duplikasi hanya dituliskan sekali saja. sekali saja.
Type: “culo”, “dan”, “boyo”, Type : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”,
Tokens, Types, and Terms Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”
Token: “culo”, “dan”, “boyo”, Token : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”
Type: “culo”, “dan”, “boyo”, Type : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”,
Tokens, Types, and Terms Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”
Term adalah type yang sudah Term adalah type yang sudah dinormalisasi (dilakukan stemming, dinormalisasi (dilakukan stemming, fltering, dsb) fltering, dsb)
Term : “culo”, “boyo”, “main”, “bola”, Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah” “depan”, “rumah”
Tokens, Types, and Terms Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”
Term adalah type yang sudah Term adalah type yang sudah dinormalisasi (dilakukan stemming, dinormalisasi (dilakukan stemming, fltering, dsb) fltering, dsb)
Term : “culo”, “boyo”, “main”, “bola”, Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah” “depan”, “rumah”
Tokens, Types, and Terms Tokens, Types, and Terms
Text: “apakah culo dan boyo bermain Text: “apakah culo dan boyo bermain bola di depan rumah boyo?” bola di depan rumah boyo?”
Token: “culo”, “dan”, “boyo”, Token : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”
Type: “culo”, “dan”, “boyo”, Type : “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah” “rumah”
Contoh Tokenisasi Contoh Tokenisasi
Teks English They are applied to the words in the
texts.they are applied to
Tokens the
words in the
Contoh Tokenisasi Contoh Tokenisasi Teks Bahasa Namanya adalah Santiago. Santiago sudah memutuskan untuk mencari sang alkemis
namanya adalah santiago santiago
Tokens
sudah memutuskan untuk mencari sang
Langkah 3 : Stopword Langkah 3 : Stopword Removal Removal
Disebut juga Filtering Disebut juga Filtering
Filtering adalah tahap pengambilan Filtering adalah tahap pengambilan
dari hasil token, yaitu kata-kata apa saja dari hasil token, yaitu kata-kata apa saja
yang akan digunakan untuk yang akan digunakan untuk merepresentasikan dokumen. merepresentasikan dokumen.Langkah 3 : Stopword Removal Langkah 3 : Stopword Removal
Disebut juga Filtering Filtering adalah tahap pemilihan kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen.
Disebut juga Filtering
Filtering adalah tahap pemilihan
kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen.
Stopword Removal : Metode Stopword Removal : Metode
Algoritma stoplist Algoritma stoplist
Stoplist atau stopword adalah Stoplist atau stopword adalah kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif
(tidak penting) yang dapat dibuang (tidak penting) yang dapat dibuang
dengan pendekatan bag-of-words. dengan pendekatan bag-of-words.
Stopword Removal : Metode Stopword Removal : Metode
Algoritma stoplist Algoritma stoplist
Stoplist atau stopword adalah
Stoplist atau stopword adalah
kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif
(tidak penting) (tidak penting) yang dapat dibuang yang dapat dibuangdengan pendekatan bag-of-words. dengan pendekatan bag-of-words.
Stopword Removal : Metode Stopword Removal : Metode
Algoritma stoplist Algoritma stoplist
Kita memiliki database kumpulan Kita memiliki database kumpulan
kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif
(tidak penting), kemudian kalau (tidak penting), kemudian kalauhasil tokenisasi itu ada yang hasil tokenisasi itu ada yang merupakan kata tidak penting dalam merupakan kata tidak penting dalam database tersebut, maka hasil database tersebut, maka hasil
Stopword Removal : Metode Stopword Removal : Metode
Algoritma stoplist Algoritma stoplist
Contoh stopwords adalah i’m, you, Contoh stopwords adalah i’m, you, one, two, they, are, to, the, in, dst. one, two, they, are, to, the, in, dst.
Stopword Removal : Metode Stopword Removal : Metode
Hasil Token Hasil Filteringthey
- are
- applied
applied to
- the
- words
words in
- the
- texts
Stopword Removal : Metode Stopword Removal : Metode
Algoritma stoplist Algoritma stoplist
Contoh stopwords adalah untuk, sang, Contoh stopwords adalah untuk, sang, sudah, adalah, dst. sudah, adalah, dst.
Stopword Removal : Metode Stopword Removal : Metode
Hasil Token Hasil Filteringnamanya namanya adalah
- santiago
santiago santiago santiago sudah
- memutuskan memutuskan untuk
- mencari
mencari sang
Stopword Removal : Metode Stopword Removal : Metode
Algoritma wordlist Algoritma wordlist
Wordlist adalah kata-kata yang Wordlist adalah kata-kata yang deskriptif (penting) yang harus deskriptif (penting) yang harus
disimpan dan tidak dibuang dengan disimpan dan tidak dibuang dengan
pendekatan bag-of-words. pendekatan bag-of-words.
Stopword Removal : Metode Stopword Removal : Metode
Algoritma wordlist Algoritma wordlist
Wordlist adalah kata-kata yang
Wordlist adalah kata-kata yang
deskriptif (penting) deskriptif (penting) yang harus yang harusdisimpan dan tidak dibuang dengan disimpan dan tidak dibuang dengan pendekatan bag-of-words. pendekatan bag-of-words.
Stopword Removal : Metode Stopword Removal : Metode
Algoritma wordlist Algoritma wordlist
Kita memiliki database kumpulan Kita memiliki database kumpulan
kata-kata yang deskriptif kata-kata yang deskriptif (penting), (penting), kemudian kalau hasil kemudian kalau hasil
tokenisasi itu ada yang merupakan tokenisasi itu ada yang merupakan kata penting dalam database tersebut, kata penting dalam database tersebut, maka hasil tokenisasi itu disimpan. maka hasil tokenisasi itu disimpan.
Stopword Removal : Metode Stopword Removal : Metode
Algoritma wordlist Algoritma wordlist
Contoh wordlist adalah applied, Contoh wordlist adalah applied, words, texts, dst. words, texts, dst.
Stopword Removal : Metode Stopword Removal : Metode
Hasil Token Hasil Filteringthey
- are
- applied
applied to
- the
- words
words in
- the
- texts
Stopword Removal : Metode Stopword Removal : Metode
Algoritma wordlist Contoh wordlist adalah santiago, namanya, mencari, memutuskan, alkemis, dst.
Algoritma wordlist
Contoh wordlist adalah santiago, namanya, mencari, memutuskan, alkemis, dst.
Stopword Removal : Metode Stopword Removal : Metode
Hasil Token Hasil Filteringnamanya namanya adalah
- santiago
santiago santiago santiago sudah
- memutuskan memutuskan untuk
- mencari
mencari sang
Using Stop Words or Using Stop Words or Not? Not?
Kebanyakan aplikasi text mining Kebanyakan aplikasi text mining ataupun IR ataupun IR bisa ditingkatkan bisa ditingkatkan performanya dengan penghilangan performanya dengan penghilangan stopword. stopword.
Akan tetapi, secara umum Web search Akan tetapi, secara umum Web search engines seperti google sebenarnya tidak engines seperti google sebenarnya tidak menghilangkan stop word, karena menghilangkan stop word, karena algoritma yang mereka gunakan berhasil algoritma yang mereka gunakan berhasil
Using Stop Words or Using Stop Words or Not? Not?
Kebanyakan aplikasi text mining Kebanyakan aplikasi text mining ataupun IR bisa ditingkatkan ataupun IR bisa ditingkatkan performanya dengan penghilangan performanya dengan penghilangan stopword. stopword.
Akan tetapi, secara umum Web search Akan tetapi, secara umum Web search engines seperti engines seperti google sebenarnya google sebenarnya
tidak menghilangkan tidak menghilangkan stop word, stop word,
karena algoritma yang mereka karena algoritma yang mereka
Langkah 4 : Phrase Langkah 4 : Phrase
Detection Detection
Langkah ini bisa menangkap informasi Langkah ini bisa menangkap informasi dalam teks dalam teks melebihi kemampuan dari melebihi kemampuan dari metode tokenisasi / bag-of-word murni. metode tokenisasi / bag-of-word murni.
Langkah 4 : Phrase Langkah 4 : Phrase
Detection Detection
Pada langkah ini tidak hanya dilakukan Pada langkah ini tidak hanya dilakukan tokenisasi per kata, namun juga tokenisasi per kata, namun juga mendeteksi adanya 2 kata atau lebih mendeteksi adanya 2 kata atau lebih yang menjadi yang menjadi frase. frase .
Langkah 4 : Phrase Langkah 4 : Phrase
Detection Detection
Contoh, dari dokumen ini : “search Contoh, dari dokumen ini : “search
engines are the most visible engines are the most visible information retrieval applications” information retrieval applications”
Terdapat dua buah frase, yaitu Terdapat dua buah frase , yaitu
“search engines” dan “information “search engines” dan “information retrieval”. retrieval”.
Langkah 4 : Phrase Langkah 4 : Phrase
Detection Detection
Phrase detection bisa dilakukan
Phrase detection bisa dilakukan
dengan beberapa cara : menggunakan dengan beberapa cara : menggunakan
rule/aturan rule/aturan (misal dengan (misal dengan
menganggap dua kata yang sering menganggap dua kata yang sering muncul berurutan sebagai frase), bisa muncul berurutan sebagai frase), bisa dengan dengan syntactic analysis, and syntactic analysis , and kombinasi kombinasi keduanya. keduanya.
Langkah 4 : Phrase Langkah 4 : Phrase
Detection Detection
Metode umum yang diguakan adalah Metode umum yang diguakan adalah
penggunaan thesauri penggunaan thesauri untuk untuk mendeteksi adanya frase. mendeteksi adanya frase.
Contoh : Pada thesauri tersebut terdapat Contoh : Pada thesauri tersebut terdapat
daftar frase-fase dalam bahasa daftar frase-fase dalam bahasa
tertentu, kemudia kita bandingkan kata- tertentu, kemudia kita bandingkan kata- kata dalam teks apakah mengandung kata dalam teks apakah mengandung frase-frase dalam thesauri tersebut atau frase-frase dalam thesauri tersebut atau
Langkah 4 : Phrase Langkah 4 : Phrase
Detection Detection
Metode umum yang diguakan adalah Metode umum yang diguakan adalah
penggunaan thesauri penggunaan thesauri untuk untuk mendeteksi adanya frase. mendeteksi adanya frase.
Contoh : Pada thesauri tersebut Contoh : Pada thesauri tersebut terdapat terdapat daftar frase-fase dalam daftar frase-fase dalam bahasa tertentu, kemudia kita bahasa tertentu, kemudia kita bandingkan kata-kata dalam teks bandingkan kata-kata dalam teks apakah mengandung frase-frase apakah mengandung frase-frase
Langkah 4 : Phrase Langkah 4 : Phrase
Detection Detection
Kelemahanya, tahap ini butuh Kelemahanya, tahap ini butuh komputasi yang cukup lama komputasi yang cukup lama
Kebanyakan aplikasi teks mining atau Kebanyakan aplikasi teks mining atau
IR tidak menggunakan Phrase
IR tidak menggunakan Phrase
Detection Detection
Sudah cukup dengan Token per Kata Sudah cukup dengan Token per Kata Akan tetapi, sebenarnya pemanfaatan Akan tetapi, sebenarnya pemanfaatan
Langkah 4 : Phrase
Langkah 4 : Phrase
Kebanyakan aplikasi teks mining atau
Akan tetapi, sebenarnya pemanfaatan
Sudah cukup dengan Token per Kata
Detection
IR tidak menggunakan Phrase
Detection
Detection
Kelemahanya, tahap ini butuh komputasi yang cukup lama
Sudah cukup dengan Token per Kata Akan tetapi, sebenarnya pemanfaatan
Detection
IR tidak menggunakan Phrase
Kelemahanya, tahap ini butuh komputasi yang cukup lama Kebanyakan aplikasi teks mining atau
Langkah 5 : Stemming Langkah 5 : Stemming
Stemming Stemming adalah proses pengubahan adalah proses pengubahan
bentuk kata bentuk kata menjadi kata dasar atau menjadi kata dasar atau
tahap mencari root kata dari tiap tahap mencari root kata dari tiap kata hasil fltering. kata hasil fltering.
Langkah 5 : Stemming Langkah 5 : Stemming
Dengan dilakukanya proses stemming Dengan dilakukanya proses stemming setiap kata berimbuhan akan berubah setiap kata berimbuhan akan berubah menjadi kata dasar, dengan demikian menjadi kata dasar, dengan demikian dapat lebih dapat lebih mengoptimalkan proses mengoptimalkan proses
teks mining teks mining. .
Langkah 5 : Stemming Langkah 5 : Stemming
Hasil Token Hasil Filtering Hasil Stemming
they
- are
- applied applied appl>the
- words words word in
- the
- texts
Langkah 5 : Stemming Langkah 5 : Stemming
Hasil Token Hasil Filtering Hasil Stemming
namanya namanya nama adalah - - santiago santiago santiago santiago santiago santiago sudah - - memutuskan memutuskan putus untuk - - mencari mencari cari sang - -
Langkah 5 : Stemming Langkah 5 : Stemming
Implementasi proses stemming Implementasi proses stemming sangat beragam , tergantung dengan sangat beragam , tergantung dengan
bahasa bahasa dari dokumen. dari dokumen.
Beberapa metode untuk Stemming : Beberapa metode untuk Stemming : Porter Stemmer (English & Indonesia) Porter Stemmer (English & Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Nazief-Adriani (Indonesia) Stemming Nazief-Adriani (Indonesia)
Langkah 5 : Stemming Langkah 5 : Stemming
Implementasi proses stemming sangat beragam , tergantung dengan
bahasa dari dokumen.
Beberapa metode untuk Stemming :
Porter Stemmer (English & Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Nazief-Adriani (Indonesia)
Implementasi proses stemming sangat beragam , tergantung dengan
bahasa dari dokumen.
Beberapa metode untuk Stemming :
Porter Stemmer (English & Indonesia)
Stemming Arifn-Setiono (Indonesia)
Stemming Nazief-Adriani (Indonesia)
Stemming : Metode Stemming : Metode
Algorithmic: Membuat sebuah Algorithmic: Membuat sebuah
algoritma yang mendeteksi algoritma yang mendeteksi imbuhan imbuhan. Jika ada awalan atau . Jika ada awalan atau
akhiran yang seperti imbuhan, maka akhiran yang seperti imbuhan, maka akan dibuang. akan dibuang.
Stemming : Metode Stemming : Metode
Algorithmic Algorithmic
Stemming : Metode Stemming : Metode
Metode Algorithmic Metode Algorithmic
Kelebihan : relatif cepat Kelebihan : relatif cepat
Kekurangan : beberapa algoritma Kekurangan : beberapa algoritma terkadang salah mendeteksi terkadang salah mendeteksi
imbuhan, sehingga ada beberapa kata imbuhan, sehingga ada beberapa kata
yang bukan imbuhan tapi dihilangkan yang bukan imbuhan tapi dihilangkan Contoh : makan -> mak; an dideteksi Contoh : makan -> mak; an dideteksiStemming : Metode Stemming : Metode
Metode Algorithmic Kelebihan : relatif cepat Kekurangan : beberapa algoritma
terkadang salah mendeteksi imbuhan, sehingga ada beberapa
kata yang bukan imbuhan tapi dihilangkan Contoh : makan -> mak; an dideteksi
Metode Algorithmic
Kelebihan : relatif cepat
Kekurangan : beberapa algoritma
terkadang salah mendeteksi imbuhan , sehingga ada beberapa
kata yang bukan imbuhan tapi dihilangkan
Contoh : makan -> mak; an dideteksi
Stemming : Metode Stemming : Metode
Metode Algorithmic Metode Algorithmic
Kelebihan : relatif cepat Kelebihan : relatif cepat
Kekurangan : beberapa algoritma Kekurangan : beberapa algoritma
terkadang salah mendeteksi terkadang salah mendeteksi imbuhan, sehingga ada beberapa imbuhan , sehingga ada beberapa
kata yang bukan imbuhan tapi kata yang bukan imbuhan tapi dihilangkan dihilangkan
Contoh : makan -> mak; an dideteksi Contoh : makan -> mak; an dideteksi
Stemming : Metode Stemming : Metode
Metode Lemmatization Metode Lemmatization
Lemmatization : Stemming Lemmatization : Stemming berdasarkan berdasarkan kamus kamus
Menggunakan vocabulary dan Menggunakan vocabulary dan morphological analysis dari kata untuk morphological analysis dari kata untuk menghilangkan imbuhan dan menghilangkan imbuhan dan
dikembalikan ke bentuk dasar dari kata. dikembalikan ke bentuk dasar dari kata.
Stemming : Metode Stemming : Metode
Metode Lemmatization Metode Lemmatization
Lemmatization : Stemming Lemmatization : Stemming berdasarkan berdasarkan kamus kamus
Menggunakan vocabulary dan Menggunakan vocabulary dan
morphological analysis dari kata untuk morphological analysis dari kata untuk
menghilangkan imbuhan dan menghilangkan imbuhan dan dikembalikan ke bentuk dasar dari dikembalikan ke bentuk dasar dari
Stemming : Metode Stemming : Metode
Metode Lemmatization Metode Lemmatization
Stemming ini bagus untuk kata-kata Stemming ini bagus untuk kata-kata yang mengalami yang mengalami perubahan tidak perubahan tidak
beraturan (terutama dalam english) beraturan (terutama dalam english)
Contoh : “see” -> “see”, “saw”, atau Contoh : “see” -> “see”, “saw”, atau “seen” “seen”Jika ada kata “see”, “saw”, atau “seen”, Jika ada kata “see”, “saw”, atau “seen”,
bisa dikembalikan ke bentuk aslinya bisa dikembalikan ke bentuk aslinyaStemming : Metode Stemming : Metode
Metode Lemmatization Metode Lemmatization
Stemming ini bagus untuk kata-kata Stemming ini bagus untuk kata-kata yang mengalami yang mengalami perubahan tidak perubahan tidak
beraturan (terutama dalam english) beraturan (terutama dalam english)
Contoh : “see” -> “see”, “saw”, atau Contoh : “see” -> “see”, “saw”, atau “seen” “seen”
Jika ada kata “see”, “saw”, atau Jika ada kata “see”, “saw”, atau “seen”, bisa dikembalikan ke bentuk “seen”, bisa dikembalikan ke bentuk
Stemming : Metode Stemming : Metode
Algoritma Algoritma Porter Porter Stemming Stemming merupakan algoritma yang paling merupakan algoritma yang paling populer. Ditemukan oleh Martin populer. Ditemukan oleh Martin Porter pada tahun 1980. Porter pada tahun 1980.
Mekanisme algoritma tersebut dalam Mekanisme algoritma tersebut dalam mencari kata dasar suatu kata mencari kata dasar suatu kata berimbuhan, yaitu dengan membuang berimbuhan, yaitu dengan membuang
atau lebih tepatnya atau lebih tepatnya
imbuhan–imbuhan ( imbuhan–imbuhan (
akhiran pada kata–kata bahasa Inggris karena akhiran pada kata–kata bahasa Inggris karena
Langkah 5 : Stemming Langkah 5 : Stemming
Hasil Hasil Hasil Type Term
Token Filtering Stemmingthey
- >are
- applied applied apply apply appl
- the >words words word word word in >the
Langkah 5 : Stemming Langkah 5 : Stemming Hasil Token Hasil Filtering Hasil Stemming Type Term
namanya namanya nama nama nama adalah - - - - santiago santiago santiago santiago santiago santiago santiago santiago
- - - sudah - - - - memutusk an memutusk an putus putus putus untuk - - - - mencari mencari cari cari cari sang - - - -
Studi Kasus Studi Kasus
Dokumen Ke-i 1 hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak Isi Dokumen dalam setahun belakangan ini, pengaksesan KRS diganti ke SIAM (sebelumnya ijazah. wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat 2 berpengaruh bagi mahasiswa semester muda tapi juga keseluruhan mahasiswa buruk (lambat loading dan bahkan sampai logout dengan sendirinya). *KRS tidak hanya menggunakan SINERGI). saat menggunakan sinergi, ftur serta kecepatan akses sangat handal dan nyaman. tapi setelah diganti menggunakan SIAM, keadaan berbalik menjadi 3 inggris (atau yang kurang beruntung dalam ujian toeic-nya). sehingga mereka tidak bisa saya rasa ini sangat menghambat teman-teman yang memang lemah dibidang bahasa sertifkat TOEIC, sehingga jika belum lulus toeic maka tidak bisa melakukan ujian kompre. Assalamualaikum Wr. Wb. yang menjadi salah satu syarat untuk bisa ujian kompre ada 4 keberatan dengan biaya itu? terima kasih atas perhatiannya. pak/bu dosen saya mau minta keringanan biaya proposional dan spp ,soalnya ibu saya fokus untuk ujian kompre-nya. terima kasih..
Studi Kasus Studi Kasus
Dokume n Ke-i Isi Dokumen Tokenisasi Filtering Stemming
1 pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas. sehingga memudahkan mahasiswa yang ada di luar kota. pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota. sehingga lebih cepat mendapat ijazah. pembukaan daftar wisuda dan pelaksanaan nya lebih baik d umumkan di web ub tidak hanya di fakultas sehingga memudahkan mahasiswa yang ada di luar kota pelaksanaan wisuda sebaiknya terjadwal tidak tergantung pada kuota sehingga lebih cepat mendapat ijazah pembukaan daftar wisuda pelaksanaan umumkan web ub fakultas memudahkan mahasiswa kota pelaksanaan wisuda sebaiknya terjadwal tergantung kuota cepat ijazah buka daftar wisuda laksana umum web ub fakultas mudah mahasiswa kota laksana wisuda baik jadwal gantung kuota cepat ijazah