Klasifikasi Teks Identifikasi makna kata sabar dalam karya sastra Menggunakan K Nearest Neighbor (KNN)

2.2.1.4. Text Frequency dan Pembobotan

Semakin banyak kata yang mirip atau sama antara dua dokumen maka semakin dekat kedua dokumen tersebut dan akan memiliki bobot atau nilai yang lebih tinggi Manning,2008. Pemberian bobot atau nilai akan menggunakan teknik TFIDFterm frequency inverse document frequency. TF adalah jumlah kemunculan suatu kata dalam sebuah dokumen, sedangkan IDF adalah inverse dari banyanknya dokumen dimana suatu term tersebut muncul. Rumus Pembobotan Saton1983: Wt,d = tft,d idft = tft,d logNnt 2.1 Keterangan: a. Wt,d = bobot dari termkata t dalam dokumen d. b. Tft,d = frekuensi kemunculan termkata t dalam dokumen d. c. Idft = Inverse document frequency dari kata t. d. N = jumlah seluruh dokumen. e. Nt = jumlah dari dokumen training yang mengandung kata t.

2.3. Klasifikasi Teks

Klasifikasi merupakan proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan kelas – kelas data fungsi tersebut digunakan untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Proses klasifikasi ini terbagi menjadi dua tahapan, yaitu tahap test dan tahap uji. Pada tahap test, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model prediksi Han dan Kamber, 2006.

2.3.1. K-Nearest Neighbour

Metode KNN adalah salah satu metode yang digunakan dalam sistem klasifikasi yang menggunakan pendekatan Machine Learning. Machine Learning merupakan sebuah proses dalam membangun sistem klasifikasi melakui pembelajaran dari sejumlah contoh yang sudah diklasifikasikan sebelumnya Feldman Sanger, 2007. Salah satu masalah yang dihadapi KNN adalah pemilihan nilai K yang tepat. Misalnya, diambil K bernilai 13, kelas 0 dimiliki oleh 7 tetangga yang jauh, sedangkan kelas 1 dimiliki oleh 6 tetangga yang lebih dekat. Hal ini mengakibatkan data uji tersebut akan terdistorsi sehingga ikut tergabung dengan kelas 0. Hal ini karena setiap tetangga tersebut memiliki bobot yang sama terhadap data uji, sedangkan nilai K yang terlalu kecil bisa menyebabkan algoritma terlalu sensitif terhadap noise. Nilai K yang bagus dapat dipilih berdasarkan optimisasi parameter, misalkan dengan cross validation Eko Prasetyo, 2012. Berikut ini adalah beberapa karakteristik kelebihan dan kekurangan metode KNN menurut Eko Prasetyo2012. 1. KNN merupakan algoritma yang menggunakan seluruh data latih untuk melakukan proses klasifikasi complete storage. Hal ini mengakibatkan proses prediksi yang sangat lama untuk data dalam jumlah yang sangat besar. Pendekatan lain adalah dengan menggunakan mean data dari setiap kelas, kemudian menghitung jarak terdekat data uji ke mean data setiap kelas tersebut. Hal ini memberi keuntungan kerja yang lebih cepat, tetapi hasilnya kurang memuaskan karena model hanya membentuk hyperplane tepat di tengah-tengah di antara 2 kelas yang memisahkan 2 kelas untuk kasus 2 kelas. Semakin banyak data latih, semakin halus hyperplane yang dibuat. Ada relasi pertukaran trade- off relation antara jumlah data latih pada biaya komputasi dengan kualitas batas keputusan decision boundary yang dihasilkan. 2. Algoritma KNN tidak membedakan setiap fitur dengan suatu bobot seperti pada Artificial Neural Network ANN yang berusaha menekan fitur yang tidak mempunyai kontribusi terhadap klasifikasi menjadi 0 pada bagian bobot. KNN tidak memiliki bobot untuk masing- masing fitur. 3. Karena KNN masuk kategori lazy learning yang menyimpan sebagian atau semua data dan hampir tidak ada proses pelatihan, KNN sangat cepat dalam proses pelatihan karena memang tidak ada, tetapi sangat lambat dalam proses prediksi. 4. Hal yang rumit adalah menentukan nilai K yang paling sesuai. 5. Karena KNN pada prinsipnya memilih tetangga terdekat, parameter jarak juga penting untuk dipertimbangkan sesuai dengan kasus datanya. Euclidean sangat cocok untuk menggunakan jarak terdekat lurus antara dua data, tetapi Manhattan sangat teguh robust untuk mendeteksi outlier dalam data. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI

2.3.2. Langkah Algoritma KNN

1. Tentukan parameter k = jumlah dokumen tetangga. 2. Hitung kemiripan antara dokumen baru dan dokumen pelatihan dengan menggunakan rumus cosine similarity Manning, Raghavan, dan Schutze, 2008: Sim � , � = � . ‖ � ‖ ‖ ‖ 2.2 2.3 Keterangan: - � : dokumen j dokumen pelatihan - � : query dokumen dokumen test - ∑ � , � = : jumlah bobot kata i pada dokumen j - ∑ � , � = : jumlah bobot kata i pada dokumen q test 3. Urutkan nilai kesamaan dan tentukan tetangga terdekat berdasarkan jarak terkecil, banyak tetangga terdekat diambil dari parameter k. 4. Gunakan label mayoritas dari kategori dokumen tetangga sebagai nilai prediksi dokumen test. ෍ � , � , � = ඩ෍ � , � = ඩ෍ � , � = Sim � , � =

2.3.3. Perhitungan Akurasi

Perhitungan akurasi dilakukan dengan menggunakan metode cross-validation. Pada metode cross-validation, data dibagi menjadi k subset atau fold yang saling bebas secara acak, yaitu S1, S2, ...., Sk, dengan ukuran setiap subset sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke-i, subse S1 diperlukan sebagai data pengujian, dan subset lainnya sebagai data pelatihan. Tingkat akurasi dihitung dengan membagi jumlah keseluruhan klasifikasi yang benar dengan jumlah semua instance pada data awal Han Kamber 2006. Jika menggunakan 3 fold, maka akan dibagi menjadi 3 tahap seperti dibawah ini: Tahap I 1. fold 1 sebagai data uji. 2. fold 2 sebagai data pelatihan. 3. fold 3 sebagai data pelatihan. Tahap II 1. fold 2 sebagai data uji. 2. fold 1 sebagai data pelatihan. 3. fold 3 sebagai data pelatihan. Tahap III 1. fold 3 sebagai data uji. 2. fold 1 sebagai data pelatihan. 3. fold 2 sebagai data pelatihan. Setelah dilakukan cross-validation maka dilanjutkan dengan precision untuk menentukan akurasi. Precision = �ℎ � � �� � � �ℎ � � � x 100 2.4 21

BAB III METODOLOGI PENELITIAN

3.1. Gambaran Umum Sistem