Text Mining Text Pre-Processing

BAB 2 LANDASAN TEORI

2.1. Text Mining

Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval Berry Kogan, 2010. Text mining sebenarnya tidak jauh berbeda dengan data mining, yang membedakan hanyalah sumber data yang digunakan. Pada data mining data yang digunakan adalah data yang terstruktur, sedangkan pada text mining data yang digunakan adalah data yang tidak terstruktur berupa teks. Tujuan dari text mining secara keseluruhan adalah pada dasarnya untuk mengubah suatu teks menjadi data yang dapat dianalisis.

2.2. Text Pre-Processing

Text pre-processing adalah proses pengubahan bentuk data yang belum terstruktur menjadi data yang terstruktur sesuai dengan kebutuhan, yang dilakukan untuk proses mining yang lebih lanjut. Tahap-tahap pada text pre-processing secara umum adalah tokenizing, case-folding, filtering, phrase detection, dan stemming. Dimana penjelasan dari tahap-tahap tersebut adalah sebagai berikut: 2.2.1. Tokenizing Tokenizing adalah tahap pemotongan teks input menjadi kata, istilah, symbol, tanda baca, atau elemen lain yang memiliki arti yang disebut token Vijayarani Janani, 2016. Pada proses, token yang merupakan tanda baca yang dianggap tidak perlu seperti titik ., koma ,, tanda seru , dan lain-lain akan dihapus. Contoh dari proses tokenizing dapat dilihat pada Gambar 2.1. Universitas Sumatera Utara Gambar 2.1. Proses Tokenizing 2.2.2. Case-folding Case-folding adalah proses penyamaan case dalam artikel, Hal ini disebabkan karena tidak semua artikel teks konsisten dalam penggunaan huruf kapital. Oleh karena itu dilakukan case-folding untuk mengkonversi semua teks kedalam suatu bentuk standar lowercase. Contoh dari proses case-folding dapat dilihat pada Gambar 2.2. Gambar 2.2. Proses Case Folding 2.2.3. Filtering Proses yang dilakukan pada tahap ini yaitu menghapus stop-word. Stop-word adalah kata yang bukan merupakan kata unik dalam suatu artikel atau kata-kata umum yang biasanya selalu ada dalam suatu artikel. Contoh kata yang termasuk stop-word adalah Universitas Sumatera Utara “yang”, “dan”, “di”, “dari”, dan lain-lain Tala, 2003. Contoh proses filtering stop- word dapat dilihat pada Gambar 2.3. Gambar 2.3. Proses Filtering Stop-Word 2.2.4. Phrase Detection Tahap ini bertujuan untuk menemukan 2 kata atau lebih yang merupakan frase kata. Pada bahasa Indonesia frase kata berbeda dengan kata majemuk. Dalam bahasa Indonesia frasa adalah kumpulan kata nonpredikatif, sedangkan kata majemuk adalah gabungan morfem dasar yang seluruhnya berstatus sebagai kata yang mempunyai pola yang khusus menurut kaidah bahasa yang bersangkutan. Contoh dari phrase detection untuk mendeteksi kata majemuk dapat dilihat pada Gambar 2.4. Gambar 2.4. Proses Phrase Detection Universitas Sumatera Utara 2.2.5. Stemming Tahap ini bertujuan untuk menemukan kata dasar dari kata-kata yang bukan merupakan frase yang didapatkan setelah proses phrase detection. Contoh dari proses stemming dapat dilihat pada Gambar 2.5. Gambar 2.5. Proses Stemming

2.3. Algoritma Stemming Nazief Andriani