2.2.1.4. Text Frequency dan Pembobotan
Semakin banyak kata yang mirip atau sama antara dua dokumen maka semakin dekat kedua dokumen tersebut dan akan memiliki bobot
atau nilai yang lebih tinggi Manning,2008. Pemberian bobot atau nilai akan menggunakan teknik TFIDFterm frequency inverse document
frequency. TF adalah jumlah kemunculan suatu kata dalam sebuah dokumen, sedangkan IDF adalah inverse dari banyanknya dokumen
dimana suatu term tersebut muncul.
Rumus Pembobotan Saton1983:
Wt,d = tft,d idft = tft,d logNnt 2.1
Keterangan: a.
Wt,d = bobot dari termkata t dalam dokumen d. b.
Tft,d = frekuensi kemunculan termkata t dalam dokumen d. c.
Idft = Inverse document frequency dari kata t. d.
N = jumlah seluruh dokumen. e.
Nt = jumlah dari dokumen training yang mengandung kata t.
2.3. Klasifikasi Teks
Klasifikasi merupakan proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan kelas
– kelas data fungsi tersebut digunakan untuk memperkirakan kelas dari suatu objek yang
labelnya tidak diketahui. Proses klasifikasi ini terbagi menjadi dua tahapan, yaitu tahap test dan tahap uji. Pada tahap test, sebagian data
yang telah diketahui kelas datanya diumpankan untuk membentuk model prediksi Han dan Kamber, 2006.
2.3.1. K-Nearest Neighbour
Metode KNN adalah salah satu metode yang digunakan dalam sistem klasifikasi yang menggunakan pendekatan Machine Learning.
Machine Learning merupakan sebuah proses dalam membangun sistem klasifikasi melakui pembelajaran dari sejumlah contoh yang sudah
diklasifikasikan sebelumnya Feldman Sanger, 2007. Salah satu masalah yang dihadapi KNN adalah pemilihan nilai K
yang tepat. Misalnya, diambil K bernilai 13, kelas 0 dimiliki oleh 7 tetangga yang jauh, sedangkan kelas 1 dimiliki oleh 6 tetangga yang
lebih dekat. Hal ini mengakibatkan data uji tersebut akan terdistorsi sehingga ikut tergabung dengan kelas 0. Hal ini karena setiap tetangga
tersebut memiliki bobot yang sama terhadap data uji, sedangkan nilai K yang terlalu kecil bisa menyebabkan algoritma terlalu sensitif
terhadap noise. Nilai K yang bagus dapat dipilih berdasarkan optimisasi parameter, misalkan dengan cross validation Eko Prasetyo, 2012.
Berikut ini adalah beberapa karakteristik kelebihan dan kekurangan metode KNN menurut Eko Prasetyo2012.
1. KNN merupakan algoritma yang menggunakan seluruh data latih
untuk melakukan proses klasifikasi complete storage. Hal ini mengakibatkan proses prediksi yang sangat lama untuk data dalam
jumlah yang sangat besar. Pendekatan lain adalah dengan menggunakan mean data dari setiap kelas, kemudian menghitung
jarak terdekat data uji ke mean data setiap kelas tersebut. Hal ini memberi keuntungan kerja yang lebih cepat, tetapi hasilnya kurang
memuaskan karena model hanya membentuk hyperplane tepat di tengah-tengah di antara 2 kelas yang memisahkan 2 kelas untuk
kasus 2 kelas. Semakin banyak data latih, semakin halus hyperplane yang dibuat. Ada relasi pertukaran trade- off relation antara jumlah
data latih pada biaya komputasi dengan kualitas batas keputusan decision boundary yang dihasilkan.
2. Algoritma KNN tidak membedakan setiap fitur dengan suatu bobot
seperti pada Artificial Neural Network ANN yang berusaha menekan fitur yang tidak mempunyai kontribusi terhadap
klasifikasi menjadi 0 pada bagian bobot. KNN tidak memiliki bobot untuk masing- masing fitur.
3. Karena KNN masuk kategori lazy learning yang menyimpan
sebagian atau semua data dan hampir tidak ada proses pelatihan, KNN sangat cepat dalam proses pelatihan karena memang tidak
ada, tetapi sangat lambat dalam proses prediksi. 4.
Hal yang rumit adalah menentukan nilai K yang paling sesuai. 5.
Karena KNN pada prinsipnya memilih tetangga terdekat, parameter jarak juga penting untuk dipertimbangkan sesuai dengan kasus
datanya. Euclidean sangat cocok untuk menggunakan jarak terdekat lurus antara dua data, tetapi Manhattan sangat teguh
robust untuk mendeteksi outlier dalam data. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2.3.2. Langkah Algoritma KNN
1. Tentukan parameter k = jumlah dokumen tetangga.
2. Hitung kemiripan antara dokumen baru dan dokumen pelatihan
dengan menggunakan rumus cosine similarity Manning, Raghavan, dan Schutze, 2008:
Sim � , � =
�
. ‖
�
‖ ‖ ‖
2.2
2.3
Keterangan: -
� : dokumen j dokumen pelatihan
- �
: query dokumen dokumen test -
∑ �
, �
=
:
jumlah bobot kata i pada dokumen j -
∑ �
, �
=
:
jumlah bobot kata i pada dokumen q test
3. Urutkan nilai kesamaan dan tentukan tetangga terdekat berdasarkan
jarak terkecil, banyak tetangga terdekat diambil dari parameter k. 4.
Gunakan label mayoritas dari kategori dokumen tetangga sebagai
nilai prediksi dokumen test.
�
,
�
, �
=
ඩ �
, �
=
ඩ �
, �
=
Sim
� , �
=
2.3.3. Perhitungan Akurasi
Perhitungan akurasi dilakukan dengan menggunakan metode cross-validation. Pada metode cross-validation, data dibagi menjadi k
subset atau fold yang saling bebas secara acak, yaitu S1, S2, ...., Sk, dengan ukuran setiap subset sama. Pelatihan dan pengujian dilakukan
sebanyak k kali. Pada iterasi ke-i, subse S1 diperlukan sebagai data pengujian, dan subset lainnya sebagai data pelatihan. Tingkat akurasi
dihitung dengan membagi jumlah keseluruhan klasifikasi yang benar dengan jumlah semua instance pada data awal Han Kamber 2006.
Jika menggunakan 3 fold, maka akan dibagi menjadi 3 tahap seperti dibawah ini:
Tahap I 1.
fold 1 sebagai data uji. 2.
fold 2 sebagai data pelatihan. 3.
fold 3 sebagai data pelatihan. Tahap II
1. fold 2 sebagai data uji.
2. fold 1 sebagai data pelatihan.
3. fold 3 sebagai data pelatihan.
Tahap III 1.
fold 3 sebagai data uji. 2.
fold 1 sebagai data pelatihan. 3.
fold 2 sebagai data pelatihan.
Setelah dilakukan cross-validation maka dilanjutkan dengan precision untuk menentukan akurasi.
Precision =
�ℎ � � �� � �
�ℎ � � �
x 100 2.4
21
BAB III METODOLOGI PENELITIAN
3.1. Gambaran Umum Sistem