21
BAB III METODOLOGI PENELITIAN
3.1. Gambaran Umum Sistem
Dalam penelitian ini, sistem yang dibangun adalah sistem pemerolehan informasi yang menggunakan data dalam format .txt.
Sistem ini memiliki fungsi dalam melakukan identifikasi terhadap makna kata sabar dalam sebuah karya sastra Indonesia. Dalam proses
identifikasi ini, dilakukan proses klasifikasi menggunakan metode KNN. Data dalam sistem ini akan dibagi menjadi 2 yaitu data traning
dan data testing. Data training di masukan ke dalam folder sesuai dengan maknanya.
Alur dalam sistem ini diawali dengan tahap preprocessing yang akan dilakukan terhadap data training maupun data testing. Prosesnya
diawali dengan melakukan tokenisasi. Dalam tokenisasi baik data training maupun data testing yang awalnya adalah sebuah kalimat
lengkap dengan tanda bacanya akan dilakukan penghapusan karakter tanda baca, pemenggalan kata serta mengubah semua huruf menjadi
huruf kecil. Tahap selanjutnya dalam preprocessing adalah stopword. Pada tahap stopword, akan dilakukan penghapusan kata-kata yang tidak
mempengaruhi makna kalimat tersebut seperti kata ganti orang dan kata penghubung. Tahap selanjutnya yaitu stemming. Pada tahap stemming
akan dilakukan pengembalian kata ke bentuk kata dasarnya. Setelah ketiga tahap tersebut dilalui, tahap selanjutnya adalah menghitung tf
atau jumlah kemunculan kata dalam dokumen. Setelah itu akan dilakukan proses penghitungan bobot. Tahap selanjutnya adalah tahap
klasifikasi. Pada tahap klasifikasi ini, langkah awalnya dengan menentukan nilai k atau nilai jarak, kemudian menghitung cosine
similarity, pengurutan kemiripan vektor dan menentukan label mayoritas. Berikut ini adalah skema yang digunakan. Gambaran sistem
secara umum dapat dilihat pada gambar 3.1. dibawah ini: PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
Gambar 3.1 Gambaran Umum Sistem
3.1.1. Input Data
Data yang akan digunakan adalah data berupa kumpulan kalimat yang mengandung kata dasar “sabar” yang didapatkan dari situs
CORCI dan sudah diklasifikasikan sebelumnya kedalam 6 kategori, yaitu: kata sifat, komunikasi, keadaan, urutan tindakan, pekerjaan,
urutan giliran. Jumlah data sebanyak 108. Rincian banyaknya dokumen dalam sebuah kelas dapat dilihat pada tabel 3.1.1 dibawah ini:
Tabel 3. 1. 1. Daftar Data
No Kelas Jumlah data
1 Keadaan
33 2
Urutan Giliran 22
3 Urutan Tindakan
20 4
Komunikasi 15
5 Sifat
12 6
Pekerjaan 6
Input data Preprocessing
Klasifikasi KNN Hasil
Klasifikasi Menentukan k
Menghitung Cosine Similarity Mengurutkan Vektor
Mencari label mayoritas Preprocessing
Tokenizing Stopword
Stemming Text Frequency
Gambar 3. 1. Gambaran Umum Sistem
3.1.2. Prepocessing
Pada tahap preprocessing ada 4 tahap yang harus berurutan yaitu: 1.
Tokenisasi -
Sekumpulan Kalimat akan dipecah menjadi token. -
Kata diubah menjadi huruf kecil. -
Kata yang sudah menjadi token dan di ubah menjadi huruf kecil akan di hapus karakter yang tidak penting seperti tanda baca.
- Contoh hasil Tokenisasi dapat dilihat pada lampiran 1.
2. Stopword
- Pada tahap ini akan dilakukan penghapusan pada kata yang
tidak berpengaruh terhadap proses pemerolehan informasi. -
Contoh hasil Stopword dapat dilihat pada lampiran 2.
3. Stemming
- Pada tahap ini kata yang memiliki imbuhan pada awalan,
akhiran maupun awalan dan akhiran akan dikembalikan menjadi kata dasar.
- Contoh hasil Stemming dapat dilihat pada lampiran 3.
4. Text Frequency pembobotan kata
- Pada tahap ini akan dilakukan pembobotan nilai dengan
menggunakan TFIDF. -
Hasil perhitungan Text Frequency dapat dilihat pada lampiran 4.
3.1.3. Klasifikasi KNN
Setelah melewati 4 tahap pada processing, selanjutnya adalah proses klasifikasi. Proses klasifikasi ini menggunakan metode KNN
yang terbagi menjadi 4 tahap yaitu: 1.
Menentukan k -
Nilai K adalah jumlah dokumen tetangga terdekat. Nilai K yang digunakan pada contoh ini adalah K= 8 dan K = 10.
2. Menghitung Cosine Similarity
- Cosine Similarity berfungsi untuk menghitung kemiripan antar
dokumen. -
Hasil Cosine Similarity dapat dilihat pada lampiran 5.
3. Mengurutkan Vektor.
- Data yang digunakan untuk mengurutkan vektor ini berasal dari
hasil Cosine Similarity yang diurutkan dari nilai terkecil k terbesar.
- Hasil pengurutan dapat dilihat pada lampiran 6.
4. Mencari label mayoritas.
- Penentuan label mayoritas dilakukan dengan berdasarkan pada
perolehan kelas terbanyak dalam urutan vektor sesuai dengan nilai K. Sebagai contoh jika nilai K = 8 dan kelas terbanyak yang
muncul dalam 8 urutan vektor tersebut adalah kelas Keadaan, maka hasil klasifikasinya adalah kelas Keadaan.
- Hasil label mayoritas dapat dilihat pada lampiran 7.
- Jika k = 8 maka data test termasuk dalam kelas Sifat.
- Jika k = 10 maka data test termasuk dalam kelas komunikasi.
3.2. Analisa Kebutuhan Sistem