Gambaran Umum Sistem Identifikasi makna kata sabar dalam karya sastra Menggunakan K Nearest Neighbor (KNN)

21

BAB III METODOLOGI PENELITIAN

3.1. Gambaran Umum Sistem

Dalam penelitian ini, sistem yang dibangun adalah sistem pemerolehan informasi yang menggunakan data dalam format .txt. Sistem ini memiliki fungsi dalam melakukan identifikasi terhadap makna kata sabar dalam sebuah karya sastra Indonesia. Dalam proses identifikasi ini, dilakukan proses klasifikasi menggunakan metode KNN. Data dalam sistem ini akan dibagi menjadi 2 yaitu data traning dan data testing. Data training di masukan ke dalam folder sesuai dengan maknanya. Alur dalam sistem ini diawali dengan tahap preprocessing yang akan dilakukan terhadap data training maupun data testing. Prosesnya diawali dengan melakukan tokenisasi. Dalam tokenisasi baik data training maupun data testing yang awalnya adalah sebuah kalimat lengkap dengan tanda bacanya akan dilakukan penghapusan karakter tanda baca, pemenggalan kata serta mengubah semua huruf menjadi huruf kecil. Tahap selanjutnya dalam preprocessing adalah stopword. Pada tahap stopword, akan dilakukan penghapusan kata-kata yang tidak mempengaruhi makna kalimat tersebut seperti kata ganti orang dan kata penghubung. Tahap selanjutnya yaitu stemming. Pada tahap stemming akan dilakukan pengembalian kata ke bentuk kata dasarnya. Setelah ketiga tahap tersebut dilalui, tahap selanjutnya adalah menghitung tf atau jumlah kemunculan kata dalam dokumen. Setelah itu akan dilakukan proses penghitungan bobot. Tahap selanjutnya adalah tahap klasifikasi. Pada tahap klasifikasi ini, langkah awalnya dengan menentukan nilai k atau nilai jarak, kemudian menghitung cosine similarity, pengurutan kemiripan vektor dan menentukan label mayoritas. Berikut ini adalah skema yang digunakan. Gambaran sistem secara umum dapat dilihat pada gambar 3.1. dibawah ini: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI Gambar 3.1 Gambaran Umum Sistem

3.1.1. Input Data

Data yang akan digunakan adalah data berupa kumpulan kalimat yang mengandung kata dasar “sabar” yang didapatkan dari situs CORCI dan sudah diklasifikasikan sebelumnya kedalam 6 kategori, yaitu: kata sifat, komunikasi, keadaan, urutan tindakan, pekerjaan, urutan giliran. Jumlah data sebanyak 108. Rincian banyaknya dokumen dalam sebuah kelas dapat dilihat pada tabel 3.1.1 dibawah ini: Tabel 3. 1. 1. Daftar Data No Kelas Jumlah data 1 Keadaan 33 2 Urutan Giliran 22 3 Urutan Tindakan 20 4 Komunikasi 15 5 Sifat 12 6 Pekerjaan 6 Input data Preprocessing Klasifikasi KNN Hasil Klasifikasi Menentukan k Menghitung Cosine Similarity Mengurutkan Vektor Mencari label mayoritas Preprocessing Tokenizing Stopword Stemming Text Frequency Gambar 3. 1. Gambaran Umum Sistem

3.1.2. Prepocessing

Pada tahap preprocessing ada 4 tahap yang harus berurutan yaitu: 1. Tokenisasi - Sekumpulan Kalimat akan dipecah menjadi token. - Kata diubah menjadi huruf kecil. - Kata yang sudah menjadi token dan di ubah menjadi huruf kecil akan di hapus karakter yang tidak penting seperti tanda baca. - Contoh hasil Tokenisasi dapat dilihat pada lampiran 1. 2. Stopword - Pada tahap ini akan dilakukan penghapusan pada kata yang tidak berpengaruh terhadap proses pemerolehan informasi. - Contoh hasil Stopword dapat dilihat pada lampiran 2. 3. Stemming - Pada tahap ini kata yang memiliki imbuhan pada awalan, akhiran maupun awalan dan akhiran akan dikembalikan menjadi kata dasar. - Contoh hasil Stemming dapat dilihat pada lampiran 3. 4. Text Frequency pembobotan kata - Pada tahap ini akan dilakukan pembobotan nilai dengan menggunakan TFIDF. - Hasil perhitungan Text Frequency dapat dilihat pada lampiran 4.

3.1.3. Klasifikasi KNN

Setelah melewati 4 tahap pada processing, selanjutnya adalah proses klasifikasi. Proses klasifikasi ini menggunakan metode KNN yang terbagi menjadi 4 tahap yaitu: 1. Menentukan k - Nilai K adalah jumlah dokumen tetangga terdekat. Nilai K yang digunakan pada contoh ini adalah K= 8 dan K = 10. 2. Menghitung Cosine Similarity - Cosine Similarity berfungsi untuk menghitung kemiripan antar dokumen. - Hasil Cosine Similarity dapat dilihat pada lampiran 5. 3. Mengurutkan Vektor. - Data yang digunakan untuk mengurutkan vektor ini berasal dari hasil Cosine Similarity yang diurutkan dari nilai terkecil k terbesar. - Hasil pengurutan dapat dilihat pada lampiran 6. 4. Mencari label mayoritas. - Penentuan label mayoritas dilakukan dengan berdasarkan pada perolehan kelas terbanyak dalam urutan vektor sesuai dengan nilai K. Sebagai contoh jika nilai K = 8 dan kelas terbanyak yang muncul dalam 8 urutan vektor tersebut adalah kelas Keadaan, maka hasil klasifikasinya adalah kelas Keadaan. - Hasil label mayoritas dapat dilihat pada lampiran 7. - Jika k = 8 maka data test termasuk dalam kelas Sifat. - Jika k = 10 maka data test termasuk dalam kelas komunikasi.

3.2. Analisa Kebutuhan Sistem