Text Pre Processing v2 1

  Text Pre- Text Pre-

Processing Processing

M Ali Fauzi M Ali Fauzi

  

Latar Belakang Latar Belakang

Latar Belakang Latar Belakang

   Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

  Tidak semua kata mencerminkan makna/

isi yang terkandung dalam sebuah

dokumen.

   Dokumen-dokumen yang ada kebanyakan tidak memiliki struktur yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara langsung.

  Tidak semua kata mencerminkan makna/

isi yang terkandung dalam sebuah

dokumen.

Latar Belakang Latar Belakang

    Dokumen-dokumen Dokumen-dokumen yang yang ada ada kebanyakan tidak memiliki struktur kebanyakan tidak memiliki struktur yang pasti sehingga informasi di yang pasti sehingga informasi di dalamnya tidak bisa diekstrak secara dalamnya tidak bisa diekstrak secara langsung. langsung.

    Tidak semua kata Tidak semua kata mencerminkan mencerminkan makna/isi yang terkandung dalam makna/isi yang terkandung dalam sebuah dokumen. sebuah dokumen.

Latar Belakang Latar Belakang

    Preprocessing Preprocessing diperlukan diperlukan untuk untuk memilih kata yang akan digunakan memilih kata yang akan digunakan sebagai indeks sebagai indeks

Indeks ini adalah kata-kata yang Indeks ini adalah kata-kata yang

mewakili mewakili dokumen dokumen yang yang nantinya nantinya

digunakan untuk membuat pemodelan digunakan untuk membuat pemodelan

untuk Information Retrieval maupun untuk Information Retrieval maupun

aplikasi teks mining lain.aaaaaaaaa aplikasi teks mining lain.aaaaaaaaa

Latar Belakang Latar Belakang

    Preprocessing Preprocessing diperlukan diperlukan untuk untuk memilih kata yang akan digunakan memilih kata yang akan digunakan sebagai indeks sebagai indeks

    Indeks Indeks ini adalah kata-kata yang ini adalah kata-kata yang mewakili dokumen mewakili dokumen yang nantinya yang nantinya digunakan untuk membuat pemodelan digunakan untuk membuat pemodelan untuk Information Retrieval maupun untuk Information Retrieval maupun aplikasi teks mining lain. aplikasi teks mining lain.

Defnisi Defnisi

  Defnisi Defnisi Pemrosesan Pemrosesan Teks Teks (Text (Text Preprocessing) adalah suatu proses Preprocessing) adalah suatu proses

  

pengubahan pengubahan bentuk data yang belum bentuk data yang belum

terstruktur terstruktur menjadi menjadi data data yang yang

terstruktur terstruktur sesuai dengan kebutuhan, sesuai dengan kebutuhan,

  untuk proses mining yang lebih lanjut untuk proses mining yang lebih lanjut (sentiment (sentiment analysis, analysis, peringkasan, peringkasan, clustering dokumen, etc.). clustering dokumen, etc.).

Singkatnya… Singkatnya…

  

  Preprocessing adalah merubah teks Preprocessing adalah merubah teks menjadi term index menjadi term index

  

Tujuan: menghasilkan sebuah set term Tujuan: menghasilkan sebuah set term

index yang bisa mewakili dokumen index yang bisa mewakili dokumen

Singkatnya… Singkatnya…

  

  Preprocessing adalah merubah teks

  Preprocessing adalah merubah teks

  menjadi term index menjadi term index

  

  Tujuan: menghasilkan sebuah set Tujuan: menghasilkan sebuah set

  term index term index yang bisa mewakili yang bisa mewakili

  dokumen dokumen

  Langkah-langkah

Text Pre-processing

  Langkah-langkah

Text Pre-processing

  Langkah-langkah umum dalam Text Pre-processing Langkah-langkah umum dalam Text Pre-processing

Langkah 1 : Parsing Langkah 1 : Parsing

  

  Tulisan dalam sebuah dokumen bisa Tulisan dalam sebuah dokumen bisa jadi terdiri dari berbagai macam jadi terdiri dari berbagai macam bahasa, character sets, dan format; bahasa, character sets, dan format;

  

Sering juga, dalam satu dokumen yang Sering juga, dalam satu dokumen yang

sama berisi tulisan dari beberapa sama berisi tulisan dari beberapa

bahasa. Misal, sebuah email berbahasa bahasa. Misal, sebuah email berbahasa

Indonesia dengan lampiran PDF Indonesia dengan lampiran PDF berbahasa Inggris.aa berbahasa Inggris.aa

Langkah 1 : Parsing Langkah 1 : Parsing

  

  Tulisan dalam sebuah dokumen bisa Tulisan dalam sebuah dokumen bisa jadi terdiri dari jadi terdiri dari berbagai macam berbagai macam bahasa, character sets, dan format; bahasa, character sets, dan format;

  

  Sering juga, dalam satu dokumen yang Sering juga, dalam satu dokumen yang sama berisi tulisan dari sama berisi tulisan dari beberapa beberapa

  bahasa bahasa. Misal, sebuah email . Misal, sebuah email

  berbahasa Indonesia dengan lampiran berbahasa Indonesia dengan lampiran PDF berbahasa Inggris. PDF berbahasa Inggris.

Langkah 1 : Parsing Langkah 1 : Parsing

  

Parsing Dokumen berurusan dengan Parsing Dokumen berurusan dengan

pengenalan dan “pemecahan” pengenalan dan “pemecahan”

  struktur dokumen menjadi komponen- struktur dokumen menjadi komponen- komponen terpisah. Pada langkah komponen terpisah. Pada langkah preprocessing ini, kita menentukan preprocessing ini, kita menentukan mana yang dijadikan mana yang dijadikan satu unit satu unit

  dokumen dokumen; ;

Langkah 1 : Parsing Langkah 1 : Parsing

  Contoh, Contoh, email dengan 4 lampiran bisa email dengan 4 lampiran bisa dipisah menjadi dipisah menjadi 5 dokumen : 1 5 dokumen : 1 dokumen yang merepresentasikan isi dokumen yang merepresentasikan isi (body) dari email dan 4 dokumen dari (body) dari email dan 4 dokumen dari masing-masing lampiran masing-masing lampiran

Langkah 1 : Parsing Langkah 1 : Parsing

  

  Contoh lain, buku dengan 100 Contoh lain, buku dengan 100

  halaman halaman bisa dipisah menjadi 100 bisa dipisah menjadi 100 dokumen; masing-masing halaman dokumen ; masing-masing halaman

  menjadi 1 dokumen menjadi 1 dokumen

  Satu tweet bisa dijadikan sebagai 1 Satu tweet bisa dijadikan sebagai 1

dokumen. Begitu juga dengan sebuah dokumen. Begitu juga dengan sebuah

koemntar pada forum atau review koemntar pada forum atau review produk. produk.

Langkah 1 : Parsing Langkah 1 : Parsing

  

  Contoh lain, buku dengan 100 Contoh lain, buku dengan 100

  halaman bisa dipisah menjadi 100 halaman bisa dipisah menjadi 100 dokumen dokumen; masing-masing halaman ; masing-masing halaman

  menjadi 1 dokumen menjadi 1 dokumen

  

  Satu tweet bisa dijadikan sebagai 1 Satu tweet bisa dijadikan sebagai

  1 dokumen. Begitu juga dengan sebuah dokumen . Begitu juga dengan sebuah

  komentar pada forum atau review komentar pada forum atau review produk. produk.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  Lebih populer disebut Lexing atau Lebih populer disebut Lexing atau

  Tokenization / Tokenisasi Tokenization / Tokenisasi

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  

  Tokenisasi Tokenisasi adalah adalah proses proses

  pemotongan pemotongan string string input input berdasarkan tiap kata penyusunnya. berdasarkan tiap kata penyusunnya.

  Pada prinsipnya proses ini adalah Pada prinsipnya proses ini adalah

  

memisahkan setiap kata yang memisahkan setiap kata yang

menyusun suatu dokumen. menyusun suatu dokumen.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  

  Tokenisasi Tokenisasi adalah adalah proses proses

  pemotongan pemotongan string string input input berdasarkan tiap kata penyusunnya. berdasarkan tiap kata penyusunnya.

  

  Pada prinsipnya proses ini adalah Pada prinsipnya proses ini adalah

  memisahkan memisahkan setiap kata yang setiap kata yang menyusun suatu dokumen. menyusun suatu dokumen.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  Pada Pada proses proses ini ini dilakukan dilakukan

  

penghilangan angka, tanda baca dan penghilangan angka, tanda baca dan

karakter karakter selain huruf alfabet, karena selain huruf alfabet, karena

  karakter-karakter tersebut dianggap karakter-karakter tersebut dianggap sebagai pemisah kata (delimiter) dan sebagai pemisah kata (delimiter) dan tidak memiliki pengaruh terhadap tidak memiliki pengaruh terhadap pemrosesan teks. pemrosesan teks.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  Pada tahapan ini juga dilakukan Pada tahapan ini juga dilakukan proses proses case folding, dimana semua case folding , dimana semua huruf diubah menjadi huruf kecil. huruf diubah menjadi huruf kecil.

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  

  Pada tahapan ini juga Cleaning Pada tahapan ini juga Cleaning

  

Cleaning adalah proses membersihkan Cleaning adalah proses membersihkan

  dokumen dokumen dari dari komponen-komponen komponen-komponen yang tidak memiliki hubungan dengan yang tidak memiliki hubungan dengan informasi yang ada pada dokumen, informasi yang ada pada dokumen,

  seperti tag html, link, dan script seperti tag html, link, dan script

Langkah 2 : Lexical Langkah 2 : Lexical Analysis Analysis

  

  Pada tahapan ini juga Cleaning Pada tahapan ini juga Cleaning

  

  Cleaning Cleaning adalah adalah proses proses

  membersihkan membersihkan dokumen dokumen dari dari

  komponen-komponen komponen-komponen yang yang tidak tidak memiliki hubungan dengan informasi memiliki hubungan dengan informasi yang ada pada dokumen, seperti tag yang ada pada dokumen, seperti tag html, link, dan script, dsb. html, link, dan script, dsb.

  

Contoh Tokenisasi dalam Contoh Tokenisasi dalam

dokumen Bahasa dokumen Bahasa Indonesia Indonesia Teks English They are applied to the words in the texts. they are applied to

  Tokens the words in

  Teks Bahasa Indonesia Sekarang saya sedang suka memasak. Masakan kesukaan saya sekarang memasak nasi goreng adalah adalah nasi goreng. Cara Contoh Tokenisasi Contoh Tokenisasi nasi digoreng sekarang suka sedang saya memasak kesukaan masakan Tokens adalah sekarang saya cara goreng nasi goreng nasi memasak

Langkah 3 : Stopword Langkah 3 : Stopword Removal Removal

  

  Disebut juga Filtering Disebut juga Filtering

  Filtering adalah tahap pengambilan Filtering adalah tahap pengambilan

dari hasil token, yaitu kata-kata apa saja dari hasil token, yaitu kata-kata apa saja

yang akan digunakan untuk yang akan digunakan untuk merepresentasikan dokumen. merepresentasikan dokumen.

Langkah 3 : Stopword Removal Langkah 3 : Stopword Removal

  Disebut juga FilteringFiltering adalah tahap pemilihan kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen.

  

  Disebut juga Filtering

   Filtering adalah tahap pemilihan

  kata-kata penting dari hasil token, yaitu kata-kata apa saja yang akan digunakan untuk mewakili dokumen.

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma stoplist Algoritma stoplist

  Stoplist atau stopword adalah Stoplist atau stopword adalah kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif

(tidak penting) yang dapat dibuang (tidak penting) yang dapat dibuang

dengan pendekatan bag-of-words. dengan pendekatan bag-of-words.

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma stoplist Algoritma stoplist

  

  Stoplist atau stopword adalah

  Stoplist atau stopword adalah

kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif

(tidak penting) (tidak penting) yang dapat dibuang yang dapat dibuang

  dengan pendekatan bag-of-words. dengan pendekatan bag-of-words.

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma stoplist Algoritma stoplist

  

  Kita memiliki database kumpulan Kita memiliki database kumpulan

  

kata-kata yang tidak deskriptif kata-kata yang tidak deskriptif

(tidak penting), kemudian kalau (tidak penting), kemudian kalau

  hasil tokenisasi itu ada yang hasil tokenisasi itu ada yang merupakan kata tidak penting dalam merupakan kata tidak penting dalam database tersebut, maka hasil database tersebut, maka hasil

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma stoplist Algoritma stoplist

  

  Contoh stopwords adalah i’m, you, Contoh stopwords adalah i’m, you, one, two, they, are, to, the, in, dst. one, two, they, are, to, the, in, dst.

  

Stopword Removal : Metode Stopword Removal : Metode

Hasil Token Hasil Filtering they

  • are
  • applied

  applied to

  • the
  • words

  words in

  • the

  

Stopword Removal : Metode Stopword Removal : Metode

  Algoritma stoplist Algoritma stoplist

  

  Contoh stopwords adalah sekarang, Contoh stopwords adalah sekarang, saya, sedang, adalah dst. saya, sedang, adalah dst.

  

Stopword Removal : Metode Stopword Removal : Metode

Token Filtering sekarang
  • - saya
    • - sedang
      • - suka
      • suka memasak memasak masakan masakan kesukaan kesukaan saya
        • - sekarang
          • - adalah
            • - nasi
            • nasi goring goreng cara
              • - memasak
              • memasak nasi nasi goreng goreng

                Stopword Removal : Metode Stopword Removal : Metode

                  

                  Algoritma wordlist Algoritma wordlist

                  Wordlist adalah kata-kata yang Wordlist adalah kata-kata yang deskriptif (penting) yang harus deskriptif (penting) yang harus

                disimpan dan tidak dibuang dengan disimpan dan tidak dibuang dengan

                pendekatan bag-of-words. pendekatan bag-of-words.

                  

                Stopword Removal : Metode Stopword Removal : Metode

                  Algoritma wordlist Algoritma wordlist

                  

                  Wordlist adalah kata-kata yang

                  

                Wordlist adalah kata-kata yang

                deskriptif (penting) deskriptif (penting) yang harus yang harus

                  disimpan dan tidak dibuang dengan disimpan dan tidak dibuang dengan pendekatan bag-of-words. pendekatan bag-of-words.

                  

                Stopword Removal : Metode Stopword Removal : Metode

                  Algoritma wordlist Algoritma wordlist

                  

                  Kita memiliki database kumpulan Kita memiliki database kumpulan

                  kata-kata yang deskriptif kata-kata yang deskriptif (penting), (penting), kemudian kalau hasil kemudian kalau hasil

                  tokenisasi itu ada yang merupakan tokenisasi itu ada yang merupakan kata penting dalam database tersebut, kata penting dalam database tersebut,

                  

                Stopword Removal : Metode Stopword Removal : Metode

                  Algoritma wordlist Algoritma wordlist

                  

                  Contoh wordlist adalah applied, Contoh wordlist adalah applied, words, texts, dst. words, texts, dst.

                  

                Stopword Removal : Metode Stopword Removal : Metode

                Hasil Token Hasil Filtering they

                • are
                • applied

                  applied to

                • the
                • words

                  words in

                • the

                Stopword Removal : Stopword Removal : Metode Metode

                    Algoritma wordlist Algoritma wordlist

                 Contoh wordlist adalah suka, memasak, Contoh wordlist adalah suka, memasak,

                masakan, dst. masakan, dst.

                  

                Stopword Removal : Metode Stopword Removal : Metode

                Token Filtering sekarang
                • - saya
                  • - sedang
                    • - suka
                    • suka memasak memasak masakan masakan kesukaan kesukaan saya
                      • - sekarang
                        • - adalah
                          • - nasi
                          • nasi goring goreng cara
                            • - memasak
                            • memasak nasi nasi goreng goreng

                              Using Stop Words or Using Stop Words or Not? Not?

                                

                                Kebanyakan aplikasi text mining Kebanyakan aplikasi text mining ataupun IR ataupun IR bisa ditingkatkan bisa ditingkatkan performanya dengan penghilangan performanya dengan penghilangan stopword. stopword.

                                Akan tetapi, secara umum Web search Akan tetapi, secara umum Web search engines seperti google sebenarnya tidak engines seperti google sebenarnya tidak menghilangkan stop word, karena menghilangkan stop word, karena algoritma yang mereka gunakan berhasil algoritma yang mereka gunakan berhasil

                              Using Stop Words or Using Stop Words or Not? Not?

                                

                                Kebanyakan aplikasi text mining Kebanyakan aplikasi text mining ataupun IR bisa ditingkatkan ataupun IR bisa ditingkatkan performanya dengan penghilangan performanya dengan penghilangan stopword. stopword.

                                

                                Akan tetapi, secara umum Web search Akan tetapi, secara umum Web search engines seperti engines seperti google sebenarnya google sebenarnya

                                tidak menghilangkan tidak menghilangkan stop word, stop word,

                                karena algoritma yang mereka karena algoritma yang mereka

                              Langkah 4 : Phrase Langkah 4 : Phrase

                              Detection Detection

                                Langkah ini bisa menangkap informasi Langkah ini bisa menangkap informasi dalam teks dalam teks melebihi kemampuan dari melebihi kemampuan dari metode tokenisasi / bag-of-word murni. metode tokenisasi / bag-of-word murni.

                              Langkah 4 : Phrase Langkah 4 : Phrase

                              Detection Detection

                                Pada langkah ini tidak hanya dilakukan Pada langkah ini tidak hanya dilakukan tokenisasi per kata, namun juga tokenisasi per kata, namun juga mendeteksi adanya 2 kata atau lebih mendeteksi adanya 2 kata atau lebih yang menjadi yang menjadi frase. frase .

                              Langkah 4 : Phrase Langkah 4 : Phrase

                                Detection Detection

                                Contoh, dari dokumen ini : “search Contoh, dari dokumen ini : “search

                                engines are the most visible engines are the most visible information retrieval applications” information retrieval applications”

                                Terdapat dua buah frase, yaitu Terdapat dua buah frase , yaitu

                                “search engines” dan “information “search engines” dan “information retrieval”. retrieval”.

                              Langkah 4 : Phrase Langkah 4 : Phrase

                                Detection Detection

                                Phrase detection bisa dilakukan

                                Phrase detection bisa dilakukan

                                dengan beberapa cara : menggunakan dengan beberapa cara : menggunakan

                                rule/aturan rule/aturan (misal dengan (misal dengan

                                menganggap dua kata yang sering menganggap dua kata yang sering muncul berurutan sebagai frase), bisa muncul berurutan sebagai frase), bisa dengan dengan syntactic analysis, and syntactic analysis , and kombinasi kombinasi keduanya. keduanya.

                              Langkah 4 : Phrase Langkah 4 : Phrase

                                Detection Detection

                                Metode umum yang diguakan adalah Metode umum yang diguakan adalah

                                penggunaan thesauri penggunaan thesauri untuk untuk mendeteksi adanya frase. mendeteksi adanya frase.

                                Contoh : Pada thesauri tersebut terdapat Contoh : Pada thesauri tersebut terdapat

                                daftar frase-fase dalam bahasa daftar frase-fase dalam bahasa

                                tertentu, kemudia kita bandingkan kata- tertentu, kemudia kita bandingkan kata- kata dalam teks apakah mengandung kata dalam teks apakah mengandung

                              Langkah 4 : Phrase Langkah 4 : Phrase

                                Detection Detection

                                Metode umum yang diguakan adalah Metode umum yang diguakan adalah

                                penggunaan thesauri penggunaan thesauri untuk untuk mendeteksi adanya frase. mendeteksi adanya frase.

                                

                                Contoh : Pada thesauri tersebut Contoh : Pada thesauri tersebut terdapat terdapat daftar frase-fase dalam daftar frase-fase dalam bahasa tertentu, kemudia kita bahasa tertentu, kemudia kita bandingkan kata-kata dalam teks bandingkan kata-kata dalam teks

                              Langkah 4 : Phrase Langkah 4 : Phrase

                                Detection Detection

                                Kelemahanya, tahap ini butuh Kelemahanya, tahap ini butuh komputasi yang cukup lama komputasi yang cukup lama

                                

                                Kebanyakan aplikasi teks mining atau Kebanyakan aplikasi teks mining atau

                                IR tidak menggunakan Phrase

                                IR tidak menggunakan Phrase

                                Detection Detection

                                Sudah cukup dengan Token per Kata Sudah cukup dengan Token per Kata Akan tetapi, sebenarnya pemanfaatan Akan tetapi, sebenarnya pemanfaatan

                              Langkah 4 : Phrase

                              Langkah 4 : Phrase

                                Kebanyakan aplikasi teks mining atau

                                Akan tetapi, sebenarnya pemanfaatan

                                

                                Sudah cukup dengan Token per Kata

                                Detection

                                IR tidak menggunakan Phrase

                                Detection

                                Detection

                                Kelemahanya, tahap ini butuh komputasi yang cukup lama

                                

                                Sudah cukup dengan Token per Kata Akan tetapi, sebenarnya pemanfaatan

                                Detection

                                IR tidak menggunakan Phrase

                                Kelemahanya, tahap ini butuh komputasi yang cukup lama Kebanyakan aplikasi teks mining atau

                                

                              Langkah 5 : Stemming Langkah 5 : Stemming

                                Stemming Stemming adalah proses pengubahan adalah proses pengubahan

                              bentuk kata bentuk kata menjadi kata dasar atau menjadi kata dasar atau

                                tahap mencari root kata dari tiap tahap mencari root kata dari tiap kata hasil fltering. kata hasil fltering.

                              Langkah 5 : Stemming Langkah 5 : Stemming

                                Dengan dilakukanya proses stemming Dengan dilakukanya proses stemming setiap kata berimbuhan akan berubah setiap kata berimbuhan akan berubah menjadi kata dasar, dengan demikian menjadi kata dasar, dengan demikian dapat lebih dapat lebih mengoptimalkan proses mengoptimalkan proses

                                teks mining teks mining. .

                              Langkah 5 : Stemming Langkah 5 : Stemming

                                

                              Hasil Token Hasil Filtering Hasil Stemming

                              they

                              • are
                              • applied applied appl>the
                              • words words word in
                              • the

                                Langkah 5 : Stemming Langkah 5 : Stemming Token Filtering Stemming sekarang - - saya - - sedang - -

                                suka suka suka memasak memasak masak masakan masakan masak kesukaan kesukaan suka saya - - sekarang - - adalah - - nasi nasi nasi goreng goreng goreng cara memasak memasak masak nasi nasi nasi goreng goreng goreng

                              Langkah 5 : Stemming Langkah 5 : Stemming

                                

                                Implementasi proses stemming Implementasi proses stemming sangat beragam , tergantung dengan sangat beragam , tergantung dengan

                                bahasa bahasa dari dokumen. dari dokumen.

                                Beberapa metode untuk Stemming : Beberapa metode untuk Stemming : Porter Stemmer (English & Indonesia) Porter Stemmer (English & Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Arifn-Setiono (Indonesia) Stemming Nazief-Adriani (Indonesia) Stemming Nazief-Adriani (Indonesia)

                              Langkah 5 : Stemming Langkah 5 : Stemming

                                Implementasi proses stemming sangat beragam , tergantung dengan

                                bahasa dari dokumen.

                                Beberapa metode untuk Stemming :

                                 Porter Stemmer (English & Indonesia)  Stemming Arifn-Setiono (Indonesia)  Stemming Nazief-Adriani (Indonesia)

                                

                                Implementasi proses stemming sangat beragam , tergantung dengan

                                bahasa dari dokumen.

                                

                                Beberapa metode untuk Stemming :

                                 Porter Stemmer (English & Indonesia)

                                 Stemming Arifn-Setiono (Indonesia)

                                 Stemming Nazief-Adriani (Indonesia)

                              Stemming : Metode Stemming : Metode

                                

                                Algorithmic: Membuat sebuah Algorithmic: Membuat sebuah

                                algoritma yang mendeteksi algoritma yang mendeteksi imbuhan imbuhan. Jika ada awalan atau . Jika ada awalan atau

                                akhiran yang seperti imbuhan, maka akhiran yang seperti imbuhan, maka akan dibuang. akan dibuang.

                                

                              Stemming : Metode Stemming : Metode

                                Algorithmic Algorithmic

                              Stemming : Metode Stemming : Metode

                                

                                Metode Algorithmic Metode Algorithmic

                                

                                Kelebihan : relatif cepat Kelebihan : relatif cepat

                                Kekurangan : beberapa algoritma Kekurangan : beberapa algoritma terkadang salah mendeteksi terkadang salah mendeteksi

                              imbuhan, sehingga ada beberapa kata imbuhan, sehingga ada beberapa kata

                              yang bukan imbuhan tapi dihilangkan yang bukan imbuhan tapi dihilangkan Contoh : makan -> mak; an dideteksi Contoh : makan -> mak; an dideteksi

                              Stemming : Metode Stemming : Metode

                                Metode Algorithmic Kelebihan : relatif cepat Kekurangan : beberapa algoritma

                                terkadang salah mendeteksi imbuhan, sehingga ada beberapa

                                kata yang bukan imbuhan tapi dihilangkan

                                

                                Metode Algorithmic

                                

                                Kelebihan : relatif cepat

                                

                                Kekurangan : beberapa algoritma

                                terkadang salah mendeteksi imbuhan , sehingga ada beberapa

                                kata yang bukan imbuhan tapi dihilangkan

                              Stemming : Metode Stemming : Metode

                                

                                Metode Algorithmic Metode Algorithmic

                                

                                Kelebihan : relatif cepat Kelebihan : relatif cepat

                                

                                Kekurangan : beberapa algoritma Kekurangan : beberapa algoritma

                                terkadang salah mendeteksi terkadang salah mendeteksi imbuhan, sehingga ada beberapa imbuhan , sehingga ada beberapa

                                kata yang bukan imbuhan tapi kata yang bukan imbuhan tapi dihilangkan dihilangkan

                              Stemming : Metode Stemming : Metode

                                

                                Metode Lemmatization Metode Lemmatization

                                

                                Lemmatization : Stemming Lemmatization : Stemming berdasarkan berdasarkan kamus kamus

                                Menggunakan vocabulary dan Menggunakan vocabulary dan morphological analysis dari kata untuk morphological analysis dari kata untuk menghilangkan imbuhan dan menghilangkan imbuhan dan

                              Stemming : Metode Stemming : Metode

                                

                                Metode Lemmatization Metode Lemmatization

                                

                                Lemmatization : Stemming Lemmatization : Stemming berdasarkan berdasarkan kamus kamus

                                

                                Menggunakan vocabulary dan Menggunakan vocabulary dan

                                morphological analysis dari kata untuk morphological analysis dari kata untuk

                                menghilangkan imbuhan dan menghilangkan imbuhan dan dikembalikan ke bentuk dasar dari dikembalikan ke bentuk dasar dari

                              Stemming : Metode Stemming : Metode

                                

                                Metode Lemmatization Metode Lemmatization

                                

                                Stemming ini bagus untuk kata-kata Stemming ini bagus untuk kata-kata yang mengalami yang mengalami perubahan tidak perubahan tidak

                                

                              beraturan (terutama dalam english) beraturan (terutama dalam english)

                              Contoh : “see” -> “see”, “saw”, atau Contoh : “see” -> “see”, “saw”, atau “seen” “seen”

                              Jika ada kata “see”, “saw”, atau “seen”, Jika ada kata “see”, “saw”, atau “seen”,

                              Stemming : Metode Stemming : Metode

                                

                                Metode Lemmatization Metode Lemmatization

                                

                                Stemming ini bagus untuk kata-kata Stemming ini bagus untuk kata-kata yang mengalami yang mengalami perubahan tidak perubahan tidak

                                beraturan (terutama dalam english) beraturan (terutama dalam english) 

                                Contoh : “see” -> “see”, “saw”, atau Contoh : “see” -> “see”, “saw”, atau “seen” “seen”

                                

                                Jika ada kata “see”, “saw”, atau Jika ada kata “see”, “saw”, atau

                              Stemming : Metode Stemming : Metode

                                

                                Algoritma Algoritma Porter Porter Stemming Stemming merupakan algoritma yang paling merupakan algoritma yang paling populer. Ditemukan oleh Martin populer. Ditemukan oleh Martin Porter pada tahun 1980. Porter pada tahun 1980.

                                

                                Mekanisme algoritma tersebut dalam Mekanisme algoritma tersebut dalam mencari kata dasar suatu kata mencari kata dasar suatu kata berimbuhan, yaitu dengan membuang berimbuhan, yaitu dengan membuang

                                atau lebih tepatnya atau lebih tepatnya

                                imbuhan–imbuhan ( imbuhan–imbuhan (

                                

                              Tokens, Types, and Terms Tokens, Types, and Terms

                                Text: “Sekarang saya sedang suka Text: “Sekarang saya sedang suka memasak. Masakan kesukaan saya memasak. Masakan kesukaan saya sekarang adalah nasi goreng. Cara sekarang adalah nasi goreng. Cara memasak nasi goreng adalah nasi memasak nasi goreng adalah nasi digoreng.” digoreng.”

                                

                              Tokens, Types, and Terms Tokens, Types, and Terms

                                Token adalah kata-kata yang dipisah- Token adalah kata-kata yang dipisah- pisah dari teks aslinya tanpa pisah dari teks aslinya tanpa mempertimbangkan adanya duplikasi mempertimbangkan adanya duplikasi

                                Tokennya: “culo”, “dan”, “boyo”, Tokennya: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “bermain”, “bola”, “di”, “depan”, “rumah”, “boyo” “rumah”, “boyo”

                                

                              Tokens, Types, and Terms Tokens, Types, and Terms

                                Type adalah token yang memperhatikan adanya duplikasi kata.

                                Ketika ada duplikasi hanya dituliskan sekali saja.

                                Type: “culo”, “dan”, “boyo”, “bermain”,

                                “bola”, “di”, “depan”, “rumah”

                                 Type adalah token yang memperhatikan adanya duplikasi kata.

                                Ketika ada duplikasi hanya dituliskan sekali saja.

                                Type: “culo”, “dan”, “boyo”, “bermain”, “bola”, “di”, “depan”, “rumah”

                                

                              Tokens, Types, and Terms Tokens, Types, and Terms

                                Term adalah type yang sudah Term adalah type yang sudah dihilangkan duplikasinya dinormalisasi dihilangkan duplikasinya dinormalisasi (dilakukan stemming, fltering, dsb) (dilakukan stemming, fltering, dsb)

                                Term : “culo”, “boyo”, “main”, “bola”, Term : “culo”, “boyo”, “main”, “bola”, “depan”, “rumah” “depan”, “rumah”

                              Langkah 5 : Stemming Langkah 5 : Stemming

                                

                              Hasil Hasil Hasil Type Term

                              Token Filtering Stemming they

                              • >are
                              • applied applied apply apply appl
                              • the
                              • >words words word word word in >the

                                Langkah 5 : Stemming Langkah 5 : Stemming Teks Bahasa Sekarang saya sedang suka memasak. Masakan kesukaan saya sekarang adalah nasi goreng. Cara memasak nasi goreng adalah nasi digoreng Token Filtering Stemming Type Term sekarang - - - - saya - - - -

                                sedang - - - - suka suka suka suka suka memasak memasak masak masak masak masakan masakan masak - - kesukaan kesukaan suka - - saya - - - - sekarang - - - - adalah - - - - nasi nasi nasi nasi nasi goreng goreng goreng goreng goreng cara - - - - memasak memasak masak - - nasi nasi nasi - - goreng goreng goreng - -

                              Latihan Latihan

                                

                               Tuliskan sebuah artikel satu paragraph (3-5 Tuliskan sebuah artikel satu paragraph (3-5

                              kalimat) kemudian lakukan tahapan kalimat) kemudian lakukan tahapan preprocessing dan tuliskan hasil akhir preprocessing dan tuliskan hasil akhir termnya termnya