B. POP3 Server
Hal yang terjadi pada POP3 Server sebenarnya sangatlah sederhana, yaitu hanya mengumpulkan email yang masuk saja, dan mengirimkannya melewati port 110 ke
komputer client jika client meminta email-email tersebut. Untuk melihat maupun mengambil email dengan menggunakan POP3 maupun web based email, diperlukan
username dan password agar tidak sembarang orang dapat melihat email tersebut.
2.2 Klasifikasi
Kategorisasi teks atau klasifikasi teks adalah suatu proses yang mengelompokkan suatu teks ke dalam suatu kategori tertentu Sebastiani, 2002 .Kategorisasi teks
merupakan solusi yang tepat untuk mengelola informasi yang saat ini berkembang dengan sangat cepat dan melimpah. Kategorisasi teks membuat pengelolaan informasi
tersebut menjadi efektif dan efisien Chenometh, 2009.Lebih mudah kalau dokumen dikelompokkan menjadi beberapa bagian misalnya dua kelas, yaitu dokumen tentang
multicore computer chips dan dokumen bukan tentang multicore computer chips. Kelas biasanya merujuk ke topic dokumen. Prosesnya sering disebut sebagai text
classification, text categorization, topic classification, topic spotting. Dokumen yang digunakan untuk pembelajaran dinamakan contoh sample atau
trainingdata set yang dideskripsikan oleh himpunan atribut atau variabel. Salah satu atribut mendeskripsikan kelas yang diikuti oleh suatu contoh, hingga disebut atribut
kelas.Atribut lain dinamakan atribut independen atau predictor. Klasifikasi termasuk pembelajaran jenis supervised learning. Jenis lain adalah unsupervised learning atau
dikenal sebagai clustering. Pada supervised learning, data latihan mengandung pasangan data input biasanya vektor dan output yang diharapkan, sedangkan pada
unsupervised learning belum ditentukan target output yang harus diperoleh. Proses klasifikasi teks dapat dibagi ke dalam dua fase, yaitu Mahinovs, 2007 :
1.Fase information retrieval IR untuk mendapatkan data numerik dari dokumen teks.
Universitas Sumatera Utara
Langkah pertama yang dilakukan pada fase ini adalah feature extraction. Pendekatan yang umum digunakan adalah distribusi frekuensi kata. Nilai numerik yang diperoleh
dapat berupa berapa kali suatu kata muncul di dalam dokumen, 1 jika kata ada di dalam dokumen atau 0 jika tdak ada biner, atau jumlah kemunculan kata pada awal
dokumen. Fitur yang diperoleh dapat direduksi agar dimensi vektor menjadi lebih kecil. Beberapa pendakatan feature reduction dapat diterapkan seperti menghapus
stop-words, stemming, dan statistical filtering. Teknik lebih lanjut seperti SVD dan genetic algorithm akan menghasilkan vector berdimensi lebih rendah.
2. Fase klasifikasi utama. Suatu algoritma memproses data numerik di atas untuk memutuskan ke kategori mana
teks baru bukan contoh ditempatkan. Terdapat beberapa algoritma klasifikasi yang merupakan kajian di bidang statistika dan machine learning yang dapat diterapkan
pada fase ini, di antaranya adalah naïve Bayesian, Rocchio, Decision Tree, k-Nearest Neighbor k-NN, Neural Network NN, dan Support Vector Machines SVM.
Teknik-teknik tersebut berbeda dalam mekanisme pembelajaran dan representasi model yang dipelajari . K-NN dan SVM merupakan algoritma yang memberikan hasil
klasifikasi terbaik dengan presisi di atas 85 Kaiser,et all, 2005.
2.3 Text Mining