BAB 2 LANDASAN TEORI
2.1. Text Mining
Text mining merupakan teknik yang digunakan untuk menangani masalah klasifikasi, clustering, information extraction, dan information retrieval Berry Kogan, 2010.
Text mining sebenarnya tidak jauh berbeda dengan data mining, yang membedakan hanyalah sumber data yang digunakan. Pada data mining data yang digunakan adalah
data yang terstruktur, sedangkan pada text mining data yang digunakan adalah data yang tidak terstruktur berupa teks. Tujuan dari text mining secara keseluruhan adalah pada
dasarnya untuk mengubah suatu teks menjadi data yang dapat dianalisis.
2.2. Text Pre-Processing
Text pre-processing adalah proses pengubahan bentuk data yang belum terstruktur menjadi data yang terstruktur sesuai dengan kebutuhan, yang dilakukan untuk proses
mining yang lebih lanjut. Tahap-tahap pada text pre-processing secara umum adalah tokenizing, case-folding, filtering, phrase detection, dan stemming. Dimana penjelasan
dari tahap-tahap tersebut adalah sebagai berikut: 2.2.1.
Tokenizing Tokenizing adalah tahap pemotongan teks input menjadi kata, istilah, symbol, tanda
baca, atau elemen lain yang memiliki arti yang disebut token Vijayarani Janani, 2016. Pada proses, token yang merupakan tanda baca yang dianggap tidak perlu seperti
titik ., koma ,, tanda seru , dan lain-lain akan dihapus. Contoh dari proses tokenizing dapat dilihat pada Gambar 2.1.
Universitas Sumatera Utara
Gambar 2.1. Proses Tokenizing
2.2.2. Case-folding
Case-folding adalah proses penyamaan case dalam artikel, Hal ini disebabkan karena tidak semua artikel teks konsisten dalam penggunaan huruf kapital. Oleh karena itu
dilakukan case-folding untuk mengkonversi semua teks kedalam suatu bentuk standar lowercase. Contoh dari proses case-folding dapat dilihat pada Gambar 2.2.
Gambar 2.2. Proses Case Folding
2.2.3. Filtering
Proses yang dilakukan pada tahap ini yaitu menghapus stop-word. Stop-word adalah kata yang bukan merupakan kata unik dalam suatu artikel atau kata-kata umum yang
biasanya selalu ada dalam suatu artikel. Contoh kata yang termasuk stop-word adalah
Universitas Sumatera Utara
“yang”, “dan”, “di”, “dari”, dan lain-lain Tala, 2003. Contoh proses filtering stop- word dapat dilihat pada Gambar 2.3.
Gambar 2.3. Proses Filtering Stop-Word
2.2.4. Phrase Detection
Tahap ini bertujuan untuk menemukan 2 kata atau lebih yang merupakan frase kata. Pada bahasa Indonesia frase kata berbeda dengan kata majemuk. Dalam bahasa
Indonesia frasa adalah kumpulan kata nonpredikatif, sedangkan kata majemuk adalah gabungan morfem dasar yang seluruhnya berstatus sebagai kata yang mempunyai pola
yang khusus menurut kaidah bahasa yang bersangkutan. Contoh dari phrase detection untuk mendeteksi kata majemuk dapat dilihat pada Gambar 2.4.
Gambar 2.4. Proses Phrase Detection
Universitas Sumatera Utara
2.2.5. Stemming
Tahap ini bertujuan untuk menemukan kata dasar dari kata-kata yang bukan merupakan frase yang didapatkan setelah proses phrase detection. Contoh dari proses stemming
dapat dilihat pada Gambar 2.5.
Gambar 2.5. Proses Stemming
2.3. Algoritma Stemming Nazief Andriani