Identifikasi makna kata sabar dalam karya sastra Menggunakan K-Nearest Neighbor (KNN).

(1)

IDENTIFIKASI MAKNA KATA SABAR DALAM KARYA SASTRA MENGGUNAKAN K-NEAREST NEIGHBOR (KNN)

ABSTRAKSI

Kesabaran merupakan nilai hidup yang dipegang tinggi bangsa Indonesia. Menurut Subandi (2011), kesabaran merupakan ajaran yang dipegang oleh kelima agama yang besar di Indonesia (Islam, Kristen, Katolik, Hindu dan Budha). Lebih lanjut disebutkan oleh subandi bahwa dalam Al Qur'an terdapat 44 ayat yang menggunakan kata sabar dan 14 ayat yang menggunakan kata kesabaran. Penelusuran dalam Alkitab (Bible) Bahasa Indonesia menunjukkan 70 ayat yang menunggunakan kata sabar, kesabaran, dan kata lain dengan lema sabar. Subandi (2011) juga menyebutkan bahwa kesabaran merupakan bentuk pengendalian diri yang sangat penting dalam agama Budha dan agama Hindu.

Penelitian untuk mengidentifikasi makna kata sabar telah dilakukan oleh Dr. Benedictus Bherman Dwijatmoko, M.A. yang menghasilkan klasifikasi atau pengelompokan makna kata sabar kedalam 6 kategori atau kelompok, yaitu giliran, kondisi, komunikasi, sifat, pekerjaan dan urutan tindakan..

Dalam skripsi ini identifikasi makna kata sabar dilakukan dengan menggunakan algoritma K-Nearest Neighbor, yang hasilnya kemudian dibandingkan dengan hasil penelitian terdahulu oleh ahli untuk mendapatkan akurasi dari algoritma K-Nearest Neighbor dalam klasifikasi makna kata

sabar. Hasil akurasi yang diapat adalah 38,89% menggunakan data 108 artikel.

Kata Kunci: Identifikasi makna kata sabar, K – Nearest Neighbor, K-NN, Pemerolehan Informasi

(2)

IDENTIFIED THE MEANING OF SABAR WORD IN LITERARY OF ARTS USING K-NEAREST NEIGHBOR (KNN) ALGORITHM

ABSTRACT

Kesabaran ‘patience’ is the value of life that hold Indonesian people

according to Subandi (2011) kesabara ‘patience’ is a doctrin that been held

by fifth big religions in Indonesia (Islam, Christian, Catholic, Hindu and Budha). Furthenmore, Subandi said that in Al-Qur’an there are 44 verses use the sabar ‘patient’ word and 14 verses use kesabaran ‘patience’ word. In

Bible that been translated into Indonesian language, there are 70 verses use patient, kesabaran‘patience’ and another word that has same meaning with sabar ‘patient’ word. Subandi (2011) also said that kesabaran ‘patience’ is

same with self controll that it important in Budhism and Hinduism.

The research to identified the meaning of sabar ‘patient’ word has been

done by Dwijatmoko, and the result is about grouping the meaning of sabar ‘patient’ word into six group, that is turn, condition, communication,

characteristic, and sequence of actions.

In this thesis, the identification of sabar‘patient’ word is done by using

K-Nearest Neighbor, and then compare the result of the system with the result that according to expert to get the accuration of K-Nearest Neighbor Algorithm in identification the meaning of sabar ’patient’ word. The results of the sistem are 38.89 % by 108 articles.

Keywords: Identified the meaning of sabar, K – Nearest Neighbor, K-NN, Information Retrieval

(3)

IDENTIFIKASI MAKNA KATA SABAR

DALAM KARYA SASTRA MENGGUNAKAN

K-NEAREST NEIGHBOR (KNN)

Skripsi

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh:

FX. Dwi Kurniawan

125314071

PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA

(4)

IDENTIFIED THE MEANING OF SABAR WORD IN LITERARY OF ARTS USING K-NEAREST NEIGHBOR (KNN) ALGORITHM

THESIS

Presented as Partial Fulfillment of The Requirements

To Obtain the Computer Bachelor Degree

In Informatics Engineering

By:

FX. Dwi Kurniawan

125314071

INFORMATICS ENGINEERING STUDY PROGRAM FACULTY OF SCIENCE AND TECHNOLOGY

SANATA DHARMA UNIVERSITY YOGYAKARTA

(5)

(6)

(7)

PERNYATAAN KEASLIAN KARYA

Saya menyatakan dengan sesungguhnya bahwa skripsi yang saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah.

Yogyakarta, Januari 2017 Penulis

(8)

HALAMAN MOTTO

“Victory Loves Preparation”

-The Mechanic Film

“Raise your head and taste the courage”

(9)

vii

HALAMAN PERSEMBAHAN

Tugas Akhir Ini saya persembahkan untuk:

Tuhan Yesus Kristus dan Bunda Maria, Eduardus Kusmarwanto, Yuliana Winarsih,

Teresia Juliana Melani, Keluarga,

Sahabat,

Teman - teman Prodi Teknik Informatika,

(10)

viii

IDENTIFIKASI MAKNA KATA SABAR DALAM KARYA SASTRA MENGGUNAKAN K-NEAREST NEIGHBOR (KNN)

ABSTRAKSI

sabar. Hasil akurasi yang diapat adalah 38,89% menggunakan data 108 artikel.

Kata Kunci: Identifikasi makna kata sabar, K – Nearest Neighbor, K-NN, Pemerolehan Informasi

(11)

IDENTIFIED THE MEANING OF SABAR WORD IN LITERARY OF ARTS USING K-NEAREST NEIGHBOR (KNN) ALGORITHM

ABSTRACT

Kesabaran ‘patience’ is the value of life that hold Indonesian people

according to Subandi (2011) kesabara ‘patience’ is a doctrin that been held

Bible that been translated into Indonesian language, there are 70 verses use patient, kesabaran‘patience’ and another word that has same meaning with

sabar ‘patient’ word. Subandi (2011) also said that kesabaran ‘patience’ is

same with self controll that it important in Budhism and Hinduism.

The research to identified the meaning of sabar ‘patient’ word has been

done by Dwijatmoko, and the result is about grouping the meaning of sabar ‘patient’ word into six group, that is turn, condition, communication,

characteristic, and sequence of actions.

In this thesis, the identification of sabar‘patient’ word is done by using K-Nearest Neighbor, and then compare the result of the system with the result that according to expert to get the accuration of K-Nearest Neighbor Algorithm in identification the meaning of sabar ’patient’ word. The results of the sistem are 38.89 % by 108 articles.

Kata Kunci: Identified the meaning of sabar, K – Nearest Neighbor, K-NN, Information Retrieval

(12)

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMUAH UNTUK KEPERLUAN AKADEMIS

Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma:

Nama : FX. Dwi Kurniawan

Nim : 125314071

Demi mengembangkan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul:

IDENTIFIKASI MAKNA KATA SABAR DALAM KARYA SASTRA MENGGUNAKAN K-NEAREST NEIGHBOR (KNN)

Beserta pangkat yang diperlukan. Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, mengalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas, dan mempublikasikan di Internet atau media lain untuk kepentingan akademis tanpa perlu meminta izin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.

Demikian pernyataan ini saya buat dengan sebenarnya.

Yogyakarta, Januari 2017

Penulis

(13)

KATA PENGANTAR

Puji syukur penulis panjatkan kehadirat Tuhan Yang Maha Esa atas berkat dan rahmat-Nya, sehingga Tugas Akhir Identifikasi Makna Kata Sabar Dalam Karya Sastra Menggunakan K-Nearest Neighbor (KNN)

ini dapat terselesaikan. Adapun penulisan tugas akhir ini adalah untuk memenuhi persyaratan dalam memperoleh gelar Sarjana Teknik Informatika Universitas Sanata Dharma, Yogyakarta.

Penyusunan Tugas Akhir ini tidak terlepas dari bantuan beberapa pihak, oleh karena itu penulis hendak mengucapkan terima kasih kepada:

1. Tuhan Yesus Kristus yang selalu memberikan berkat dan rahmat untuk setiap pertanyaan dan permasalahan dalam pengerjaan Tugas Akhir. 2. Bunda Maria yang selalu menemani dalam keluh kesah pengerjaan Tugas

Akhir ini.

3. Bapak Sudi Mungkasi, S.Si., M.Math.Sc., Ph.D. selaku Dekan Fakultas Sains dan Teknologi.

4. Ibu Dr.Anastasia Rita Widiarti, M.Kom selaku Kaprodi Fakultas Sains dan Teknologi.

5. Ibu Sri Hartati Wijono, M.Kom. dan Bapak Dr. B. B. Dwijatmoko, M.A selaku pembimbing Tugas Akhir yang bersedia memberikan bimbingan hingga penulisan Tugas Akhir ini dapat terselesaikan.

6. Bapak Eduardus Kusmarwanto dan Ibu Yuliana Winarsih yang tanpa lelah selalu memberikan dukungan, semangat, motivasi dan doa hingga penulisan Tugas Akhir ini dapat terselesaikan.

7. Teresia Juliana Melani yang tanpa lelah selalu memberikan semangat, dorongan, motivasi baik lewat canda, tawa, doa serta ejekan yang sifatnya adalah demi terselesaikannya Tugas Akhir ini.

8. Erik dan Pius yang telah memberikan pencerahan dan bantuan terutama dalam pembuatan program pada Tugas Akhir ini.

(14)

xii

9. Teman –teman Teknik Informatika “Ikatan Teknik Informatika Liberal” yang telah memberikan keceriaan dan kebersamaan pada setiap semesternya selama masa perkuliahan.

10.Sahabat dan teman yang tidak bisa disebutkan satu persatu, terima kasih untuk dukungan dan bantuan dalam hal apapun.

11.Avenged Sevenfold yang selalu menemani dan mengiringi penulisan Tugas Akhir ini lewat lagunya.

(15)

xiii

DAFTAR ISI

HALAMAN JUDUL BAHASA INDONESIA ... i

HALAMAN JUDUL BAHASA INGGRIS ... ii

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN... iv

PERNYATAAN KEASLIAN KARYA ... v

HALAMAN MOTTO ... vi

HALAMAN PERSEMBAHAN ... vii

ABSTRAKSI ... viii

ABSTRACT ... ix

LEMBAR PERNYATAAN PERSETUJUAN ... x

KATA PENGANTAR ... xi

DAFTAR ISI ... xiii

DAFTAR GAMBAR ... xvi

DAFTAR TABEL ... xvii

DAFTAR LIST CODE ... xviii

PENDAHULUAN ... 1

1.1. Latar Belakang Masalah ... 1

1.2. Rumusan Masalah ... 3

1.3. Batasan Masalah ... 3

1.4. Tujuan Penelitian ... 3

1.5. Metodologi Penelitian ... 4

1.6. Sistematika Penulisan ... 5

BAB II ... 6

LANDASAN TEORI ... 6

2.1. Kesabaran ... 6

2.1.1. Makna Kata Sabar ... 6

2.2. Pemerolehan Informasi... 11

2.2.1. Proses Preprocessing Dokumen ... 12

2.3. Klasifikasi Teks ... 16

(16)

xiv

2.3.2. Langkah Algoritma KNN ... 19

2.3.3. Perhitungan Akurasi ... 20

BAB III ... 21

METODOLOGI PENELITIAN ... 21

3.1. Gambaran Umum Sistem ... 21

3.1.1. Input Data ... 22

3.1.2. Prepocessing... 23

3.1.3. Klasifikasi KNN ... 24

3.2. Analisa Kebutuhan Sistem ... 25

3.2.1. Definisi Aktor ... 25

3.2.2. Diagram Use Case ... 25

3.3. Perancangan Model Penyimpanan Data ... 32

3.4. Diagram Konteks ... 32

3.5. Diagram Aktivitas ... 33

BAB IV ... 36

IMPLEMENTASI ... 36

4.1. Spesifikasi Software dan Hardware yang dibutuhkan ... 36

4.1.1. Spesifikasi Software ... 36

4.1.2. Spesifikasi Hardware ... 36

4.2. Implementasi Antar Muka ... 37

4.3. Implementasi Sistem ... 38

4.3.1. Implementasi Preprocessing ... 38

4.3.2. Implementasi Klasifikasi... 44

BAB V... 46

HASIL DAN PEMBAHASAN ... 46

5.1. Pengujian ... 46

5.1.1. K fold Cross Validation ... 46

5.2. Analisa Hasil ... 49

BAB VI ... 58

PENUTUP ... 58

6.1. Kesimpulan ... 58

DAFTAR PUSTAKA ... 60

(17)

Hasil Tokenisasi ... 61

LAMPIRAN 2 ... 65

Hasil Stopword ... 65

LAMPIRAN 3 ... 67

Hasil Stemming ... 67

LAMPIRAN 4 ... 70

Hasil Text Frequency ... 70

LAMPIRAN 5 ... 75

Hasil Perhitungan COSINE SIMILARITY ... 75

LAMPIRAN 6 ... 76

Hasil Pengurutan Vektor ... 76

LAMPIRAN 7 ... 77

Hasil Label Mayoritas ... 77

LAMPIRAN 8 ... 78

(18)

xvi

DAFTAR GAMBAR

Gambar 3. 1. Gambaran Umum Sistem ... 22

Gambar 3. 2. Diagram Konteks ... 32

Gambar 3. 2. 1. Diagram Use Case ... 25

Gambar 3. 5. 1. 1. Diagram Aktivitas Input Stopword ... 33

Gambar 3. 5. 1. 2. Diagram Aktivitas Input Stemming ... 33

Gambar 3. 5. 1. 3. Diagram Aktivitas Input Data Training ... 34

Gambar 3. 5. 1. 4. Diagram Aktivitas Data Testing ... 34

Gambar 3. 5. 2. 1. Diagram Aktivitas Input Nilai K ... 35

Gambar 3. 5. 2. 2. Diagram Aktivitas Klasifikasi ... 35

Gambar 4. 2. 1. Antar Muka Awal ... 37

(19)

xvii

DAFTAR TABEL

Tabel 3. 1. 1. Daftar Data ... 22

Tabel 3. 2. 1. Definisi Aktor ... 25

Tabel 3. 2. 3. 1. 1. Narasi Input Kamus Stopword ... 26

Tabel 3. 2. 3. 1. 2. Narasi Input Kamus Stemming ... 27

Tabel 3. 2. 3. 1. 3. Narasi Input Data Training ... 28

Tabel 3. 2. 3. 1. 4. Narasi Input Data Testing ... 29

Tabel 3. 2. 3. 2. 1. Narasi Input Nilai K ... 30

Tabel 3. 2. 3. 2. 2. Narasi Klasifikasi ... 31

Tabel 5. 1. 1. 1. Pembagian Data 3 Fold ... 47

Tabel 5. 2. 1. 1 Tahap 1 (K = 4) ... 49

Tabel 5. 2. 1. 2. Tahap 2 (K = 4) ... 49

Tabel 5. 2. 1. 3. Tahap 3 (K = 4) ... 50

Tabel 5. 2. 1. 4. Rata - Rata Akurasi (K = 4) ... 50

Tabel 5. 2. 2. 1. Tahap 1 (K = 5) ... 51

Tabel 5. 2. 2. 2. Tahap 2 (K = 5) ... 51

Tabel 5. 2. 2. 3. Tahap 3 (K = 5) ... 52

Tabel 5. 2. 2. 4. Rata - Rata Akurasi (K = 5) ... 52

Tabel 5. 2. 3. 1. Tahap 1 (K = 6) ... 53

Tabel 5. 2. 3. 2. Tahap 2 (K = 6) ... 53

Tabel 5. 2. 3. 3. Tahap 3 (K = 6) ... 54

Tabel 5. 2. 3. 4. Rata - Rata Akurasi (K = 6) ... 54

Tabel 5. 2. 4. 1. Tahap 1 (K = 7) ... 55

Tabel 5. 2. 4. 2. Tahap 2 (K = 7) ... 55

Tabel 5. 2. 4. 3. Tahap 3 (K = 7) ... 56

(20)

xviii

DAFTAR LIST CODE

List Code 4. 3. 1. 1. Implementasi Tokenisasi ... 38

List Code 4. 3. 1. 2. Implementasi Stopword ... 39

List Code 4. 3. 1. 3. Implementasi Stemming ... 40

List Code 4. 3. 1. 4. Implementasi Tf ... 41

List Code 4. 3. 1. 5. Implementasi Idf... 42

List Code 4. 3. 1. 6. Implementasi Pembobotan ... 43

List Code 4. 3. 2. 1. Implementasi Hitung Cosine Similarity ... 44

(21)

BAB I

PENDAHULUAN

1.1. Latar Belakang Masalah

Karya sastra merupakan sebuah seni ungkapan pribadi manusia berupa pengalaman, pemikiran, ide dan semangat dalam suatu bentuk gambaran kehidupan yang dapat dilukiskan dalam bentuk tulisan. Beberapa contoh karya sastra diantaranya adalah puisi, fiksi atau prosa dan lain sebagainya. Dengan beragam suku dan bahasa yang ada, Indonesia tentunya memiliki beragam karya sastra dari masing-masing daerah. Sebagai contoh dalam sebuah cerita fiksi terdiri dari beberapa kalimat yang menyusun cerita tersebut dan dalam setiap kalimat terdapat kata kunci yang akan mempermudah proses pemerolehan informasi dari kalimat tersebut. Misalnya pada sebuah cerpen terdapat kalimat yang setelah dilakukan proses pemerolehan informasi maka kalimat tersebut dapat digolongkan menjadi kalimat urutan kejadian atau tergolong dalam kelompok kalimat keadaan atau bahkan kelompok kalimat komunikasi. Proses pemerolehan informasi ini tidak harus dilakukan pada satu kalimat, proses ini dapat dilakukan dengan menggunakan beberapa kalimat seperti pada penelitian yang dilakukan ini, menggunakan kalimat yang mengandung kata sabar kemudian diambil kalimat depan dan belakangnya jika kalimat tersebut berada di bagian tengah paragraf. Jika kalimat yang mengandung kata sabar berada pada awal paragraf, maka akan diambil pula kalimat setelahnya dan jika kalimat yang mengandung kata sabar tersebut berada pada bagian akhir paragraf, maka akan diambil pula kalimat sebelumnya.

(22)

Menurut Manning (2008), proses pemerolehan informasi dapat diartikan pencarian material dari dokumen yang sifatnya tidak terstruktur yang bertujuan untuk memenuhi kebutuhan informasi dari suatu kumpulan dokumen yang besar. Proses pemerolehan informasi ini dapat dilakukan dengan menggunakan hitungan manual maupun menggunakan metode-metode yang ada dalam data mining atau penambangan data atau dikenal juga dengan text mining dalam pemerolehan informasi. Dalam proses pemerolehan informasi ini, ada beberapa tahapan yang harus dilakukan. Tahap pertama adalah

preprocessing. Tahap ini terbagi menjadi 3 tahap lagi yaitu tokenizing,

stopword dan stemming. Setelah 3 tahap awal ini dilakukan, kemudian akan dilakukan perhitungan text frequency serta pembobotan. Setelah proses diatas dilakukan, selanjutnya adalah melakukan klasifikasi dengan menggunakan metode KNN atau K Nearest Neighbour.

Dalam klasifikasi ini kata akan dipisahkan ke dalam beberapa kelompok dengan berdasar kemiripan kata dalam dokumen. Dengan pengelompokan kata ini, akan mebantu untuk menemukan informasi dari sebuah dokumen secara lebih tepat. Dalam metode KNN, klasifikasi ini menggunakan hasil perhitungan tf atau text frequency

dengan melihat kemiripan cosine similarity setiap dokumen berdasarkan nilai k atau jumlah tetangga terdekat.

Dari latar belakang diatas, penulis tertarik untuk meneliti apakah metode KNN ini dapat atau cocok digunakan untuk mengklasifikasikan teks dengan data yang berasal dari berbagai karya sastra indonesia seperti puisi, cerpen, dongeng dan lain sebagainya.

(23)

1.2. Rumusan Masalah

Berdasarkan latar belakang diatas maka didapatkan rumusan masalah yaitu:

1. Bagaimana membangun sistem untuk mengidentifikasi makna kata sabar dalam karya sastra Indonesia menggunakan metode KNN? 2. Berapa besar tingkat akurasi metode KNN dalam identifikasi makna

kata dalam kalimat pada karya sastra Indonesia?

1.3. Batasan Masalah

Batasan penulisan ini adalah sebagai berikut:

1. Data yang digunakan dalam penelitian ini adalah dokumen dengan format teks(*.txt).

2. Algoritma yang digunakan adalah algoritma KNN.

3. Data yang digunakan dalam klasifikasi adalah kalimat yang mengandung kata kunci sabar dan kalimat pendukung, yaitu kalimat yang berada di depan kalimat utama atau kalimat yang berada di belakang kalimat utama.

1.4. Tujuan Penelitian

Tujuan penulisan ini adalah sebagai berikut:

1. Mengimplementasikan metode KNN dalam identifikasi makna kata sabar dalam karya sastra Indonesia.

2. Mengetahui akurasi metode KNN dalam identifikasi makna kata sabar dalam karya sastra Indonesia.

(24)

1.5. Metodologi Penelitian

Dalam penelitian ini, metodologi yang digunakan adalah sebagai berikut:

1. Studi Literatur

Pada tahap ini akan dilakukan dengan mencari informasi tentang penggunaan metode KNN dalam klasifikasi teks dari sumber-sumber buku, jurnal maupun website.

2. Pengumpulan data.

Pada tahap ini akan dilakukan pengumpulan data. Pengumpulan data ini diperoleh dari situs www.corci.org (Corpus Of Curremt Indonesia). Data yang berasal dari corci ini berupa kalimat dalam bahasa Indonesia yang berasal dari berbagai macam karya sastra Indonesia.

3. Perancangan

Pada tahap ini akan dilakukan perancangan sistem.

4. Pembuatan Sistem

Pada tahap ini setelah tahap perancangan dilakukan, maka akan dilanjutkan dengan tahap pembuatan sistem.

5. Implementasi dan Pengujian

Pada tahap ini implementasi dilakukan dengan cara melakukan pengujian pada sistem yaitu dengan memasukan data teks ke dalam sistem untuk selanjutnya dilakukan proses klasifikasi.

6. Evaluasi

Setelah tahap implementasi dan pengujian dilakukan, tahap selanjutnya adalah evaluasi. Pada tahap ini akan dilakukan analisa hasil implementasi pada sistem dan membuat kesimpulan terhadap penelitian yang dilakukan.

(25)

1.6. Sistematika Penulisan BAB I PENDAHULUAN

Bab ini berisi gambaran umum tentang penulisan yang meliputi latar belakang, rumusan masalah, batasan masalah, tujuan serta metode penelitian dan sistematika penulisan.

BAB II LANDASAN TEORI

Bab ini berisi tentang dasar teori yang digunakan, konsep pemerolehan informasi, ideologi kesabaran dalam karya sastra Indonesia, metode klasifikasi KNN, akurasi Cross Validation.

BAB III METODOLOGI PENELITIAN

Bab ini berisi tentang proses perancangan sistem, alur kerja sistem serta tampilan antar muka yang digunakan dalam penelitan.

BAB IV IMPLEMENTASI

Bab ini berisi tentang implementasi indentifikasi makna kata sabar dalam Karya Sastra.

BAB V HASIL DAN PEMBAHASAN

Bab ini berisi tentang analisa hasil dari pengujian tehadap sistem.

BAB VI KESIMPULAN DAN SARAN

Bab ini berisi tentang kesimpulan dari penelitian yang dilakukan berdasarkan implementasi, hasil dan pembahasan.

(26)

BAB II

LANDASAN TEORI

2.1. Kesabaran

Kesabaran menurut Subandi (2011) merupakan ajaran yang dijunjung tinggi oleh 5 agama besar di Indonesia (Islam, Kristen, Katolik, Hindu dan Budha). Dalam kitab Al Qur'an terdapat 44 ayat yang menggunakan kata sabar dan 14 ayat yang menggunakan kata kesabaran. Selain itu dalam Alkitab Bahasa Indonesia terdapat 70 ayat yang menggunakan kata sabar, kesabaran dan kata lain dengan lema sabar. Disebutkan pula oleh Subandi (2011) bahwa kesabaran merupakan bentuk pengendalian diri yang sangat penting dalam agama Budha dan agama Hindu. Penelitian ini menggunakan data yang diperoleh dari situs www.corci.org yang sebelumnya telah dilakukan penelitian oleh Dr. Benedictus Bherman Dwijatmoko, M.A.

Dalam penelitan yang telah dilakukan sebelumnya oleh Dr. Benedictus Bherman Dwijatmoko, M.A. selaku Dosen Pembimbing, kalimat dengan lema sabar dikelompokkan dalam 6 makna yaitu keadaan, urutan giliran, urutan tindakan, kesediaan menunggu dalam pembicaraan (komunikasi), sifat(kondisi) dan pekerjaan.

2.1.1.Makna Kata Sabar

Pada klasifikasi yang dilakukan akan dilakukan pembagian kelas berdasarkan makna dari kata sabar tersebut. Makna kata sabar tersebut adalah Keadaan, Urutan Giliran, Urutan Tindakan, Komunikasi, Sifat, Pekerjaan.

2.1.1.1. Keadaan

Arti keadaan muncul atas kesadaran pelaku atau pembicara pada keadaan lawan bicara atau orang lain yang tidak baik atau jelek. Pelaku atau pembicara karena keadaan itu tidak dapat diubah lagi dan harus diterima saja atau ditolak.

(27)

Contoh:

Pun ketika ingin membentuk sebuah kalimat, bingung aku menentukan tense-nya. Bahasa Inggrisku tak maju-maju.” “Begini, ” kata Lintang sabar menghadapi ketololanku. Ketika itu ia sedang memaku sandal cunghai-nya yang menganga seperti buaya lapar.

Penjelasan:

Pada Contoh diatas Lintang menunjukkan penerimaannya pada keadaan temannya yang bahasa Inggrisnya jelek. Lintang menerima ketololan pembicara dengan sabar.

2.1.1.2. Urutan Giliran

Kesabaran juga muncul pada penantian dari tindakan orang lain. Pelaku atau pembicara perlu sabar untuk menunggu orang lain selesai melakukan tindakannya atau menunggu gilirannya.

Contoh:

Penumpang berebut turun. Wajah gadis itu nampak sabarsekali menunggu luangnya jalan. Joki memberinya kesempatan untuk lewat.

Penjelasan:

Gadis pada contoh diatas sabar menunggu gilirannya untuk turun. Ia lebih aman dan nyaman menunggu sampai kesempatan untuk lewat datang.

2.1.1.3. Urutan Tindakan

Urutan tindakan juga merupakan kesabaran. Pelaku atau pembicara perlu melakukan tindakan sesuai dengan urutannya. Bila seseorang melakukan tindakan yang tidak sesuai dengan urut-urutannya menunjukkan ketidak-sabaran orang itu.

(28)

Contoh:

1. Kami, delapan ekor sapi, yang akan tampil pada plot kedua, gemetar menunggu aba-aba dari Mahar untuk menerjang arena. Kami tak

sabar dan rasanya kaki sudah gatal ingin mendemonstrasikan kehebatan mamalia menari. Kami adalah remaja-remaja kelebihan energi dan lapar akan perhatian.

2. Tak satu baju pun yang tertinggal di almari. Seolah-olah Haji Sudung tak akan kembali lagi ke rumah itu. Malam itu, sambil mendekap buntalan tasnya, Haji Sudung tak sabar untuk segera tertidur. Ia ingin berlari memburu pagi.

Penjelasan:

Sapi-sapi pada contoh 1 menunjukkan ketidak-sabarannya untuk mengikuti urutan itu. Demikian juga Haji Sulung. Ia harus mengemasi barang-barangnya sebelum ia tidur dan kemudian pergi pada keesokan harinya. Ia ingin segera tidur dan pergi keesokan harinya.

2.1.1.4. Komunikasi

Kesaabaran juga mempunyai arti kesediaan menunggu dalam pembicaraan (Komunikasi). Peserta pembicaraan perlu menunggu sampai orang yang berbicara selesai berbicara sebelum ia memulai bicara. Menyela pembicaraan merupakan perilaku tidak sabar.

Contoh:

1. Cun An tercenung sebentar, kelihatannya menyerap omongan penyamun ini untuk disari-sarikan, tapi setelah itu dengan tak sabar

berkata, "Sudah saya bilang jangan bertele-tele. Katakan saja tawaranmu itu."

(29)

2. Mamak berhenti sejenak. Kalan semakin tidak sabar. Sebatang rokok keretek yang ia selai tak cukup mampu untuk menghilangkan

gundahnya. ”Maksud Mamak?

Penjelasan:

Cun An menunjukkan ketidak-sabarannya dengan memotong pembicaraan penyamun itu, dan Kalan dengan memotong pembicaraan Mamak.

Latar belakang ketidak-sabaran Cun An dan Kalan berbeda. Kalimat Sudah saya bilang jangan bertele-tele. Katakan saja tawaran itu menunjukkan bahwa Cun An mempunyai kekuatan yang lebih besar daripada penyamun itu. Cun An tidak takut pada penyamun itu. Berbeda dengan Cun An, Kalan merasa tidak nyaman untuk melakukan tindakan yang dapat diartikan tidak sabar. Ia merasa terpaksa harus memotong pembicaraan mamaknya, orang yang harus dihormatinya.

Sebatang rokok keretek yang ia selai tak cukup mampu untuk menghilangkan gundahnya.

2.1.1.5. Sifat

Sifat sabar merupakan sifat baik yang dipunyai oleh orang yang diidamkan. Sifat itu sejajar dengan sifat-sifat baik yang lain seperti bijaksana, baik, tabah, dan setia.

Contoh:

1. Perempuan memang bukan persoalan baginya. Hanya masalahnya sampai sekarang dia baru bisa memahami seorang perempuan saja, mamanya, wanita yang sabar, setia, bijaksana, dan penuh kasih sayang.

2. ”Kata orangtua saya, sebagai istri saya mesti menghormati suami,

saya tidak boleh membantah kata suami. Hanya orang yang baik dan

(30)

Penjelasan:

Contoh 1 membicarakan mama pelaku yang mempunyai sifat sabar, dan contoh 2 menunjukkan pembicara sendiri yang mempunyai sifat sabar. Sifat sabar pada contoh 1 disertai dengan sifat yang baik lainnya yaitu setia, bijaksana, dan penuh kasih sayang, dan pada contoh 2 sifat itu disertai dengan sifat baik.

Pengakuan pelaku bahwa ibu pelaku itu mempunyai sifat sabar yang belum ia jumpai pada wanita lain pada contoh 1 dan pengakuan pembicara bahwa sifat sabarnya ia kembangkan karena kata orangtuanya menunjukkan peran orang tua dalam penanaman sifat sabar. Mereka melihat sosok orang tua sebagai orang yang dapat mereka tauladani dalam kesabaran.

Akan tetapi perilaku sabar pada contoh 2 menunjukkan jalan pemikiran yang berbeda. Kesabaran pada wanita itu merupakan kesabaran yang dipaksakan. Seorang istri tidak boleh membantah kata suaminya apapun yang dikatakan suaminya. Bila ia melanggar aturan itu, ia diancam untuk tidak dapat masuk surga.

2.1.1.6. Pekerjaan

Arti kesabaran yang terakhir adalah ketekunan dalam pekerjaan. Orang yang sabar adalah orang yang dapat menghadapi situasi yang sulit untuk dihadapi atau melakukan pekerjaannya dengan tekun. Ia tidak mudah menyerah menghadapi keadaan yang sulit dan terus tekun untuk mencapai tujuannya.

Contoh:

1. "Bagaimana aku bisa sabar, kalau harus membuang tenaga, waktu, dan pikiran cuma untuk beberapa ratus Indian rupee!"

2. Uang itu ditolak Emak. Tetapi, setelah dibujuk berulang-ulang oleh Si Pelukis dengan sabar dan manis, akhirnya uang yang cukup banyak itu diterima Emak.

(31)

Penjelasan:

Pembicara pada contoh 1 tidak sabar atau tabah menghadapi keadaan yang sulit. Ia tidak mau membuang tenaga, waktu, dan pikirannya karena uang yang diterimanya sangat sedikitnya. Sebaliknya, Si Pelukis dengan gigih atau tekun terus membujuk ibu pembicara sehingga wanita itu mau menerima uang yang ingin diberikannya.

Latar belakangnya munculnya kesabaran atau ketidak-sabaran pada contoh 1 dan contoh 2 berbeda. Pembicara pada contoh 1 tidak sabar atas perilaku pemilik pekerjaan atau orang yang memberinya pekerjaan. Ia merasa diperlakukan tidak sebanding antara tenaga, waktu, dan pikiran yang dikeluarkannya dengan uang yang diterimanya. Pemilik uang, modal, atau pekerjaan dapat memperlakukan orang yang dipekerjakannya dengan tidak sepantasnya. Pada data contoh 2 faktor kedudukan dan usia Emak menuntut pelukis itu untuk bertindak gigih untuk meyakinkan wanita itu agar mau menerima uang.

2.2. Pemerolehan Informasi

Pemerolehan Informasi berhubungan dengan pengambilan informasi dari dokumen-dokumen yang didasarkan pada isi dan konteks dari dokumen-dokumen itu sendiri. Beberapa pengertian Pemerolehan Informasi dari berbagai sumber, antara lain :

Pemerolehan Informasi adalah menemukan materi (biasanya berupa dokumen) yang bersifat tidak terstruktur (biasanya dalam bentuk teks) yang memenuhi kebutuhan informasi dari dalam koleksi atau kumpulan besar (biasanya disimpan di komputer) (Manning, 2008).

Pemerolehan informasi merupakan “bidang berkaitan dengan

struktur, analisis, organisasi, penyimpanan, pencarian, dan pengambilan informasi (Salton, 1968). “ Croft, 2010.

(32)

Information Retrieval adalah “bidang di persimpangan ilmu informasi dan ilmu komputer. Berkutat dengan pengindeksan dan pengambilan informasi dari sumber informasi heterogen (memiliki pengaruh yang berbeda) dan sebagian besar-tekstual (Mooers, 1951). “ Hersh, 2003.

Data yang dapat dijadikan sumber pencarian dapat berupa pesan teks, seperti e-mail, dan dokumen berita, bahkan dokumen yang beredar di internet. Dengan jumlah dokumen koleksi yang besar sebagai sumber pencarian, maka dibutuhkan suatu sistem yang dapat membantu user menemukan dokumen yang relevan dalam waktu yang singkat dan tepat.

2.2.1.Proses Preprocessing Dokumen

Setelah mendapatkan dokumen langkah selanjutnya adalah untuk memutuskan apakah harus dilakukan sebuah langkah untuk menyederhanakan pencarian atau lebih sering disebut dengan proses

preprocessing. Proses ini berfungsi untuk mendapatkan kata kunci yang nantinya dapat digunakan sebagai pembanding antar dokumen. Dalam proses ini ada beberapa tahap yaitu tokenisasi, stopword, stemming dan

text frequency.

2.2.1.1. Tokenisasi

Tokenisasi adalah proses memotong kalimat menjadi potongan-potongan kata yang disebut token dan pada saat yang sama karakter-karakter tertentu seperti tanda baca dihapus (Manning, 2008). Dalam tokenisasi ini pula kata dalam dokumen akan diubah menjadi huruf kecil.

Contoh:

Aneh. Tadi ia tidak sabar menunggu telepon berbunyi, tapi kini malah ragu mengangkat. Perasaan cemas menyisip.

(33)

Maka akan menjadi seperti dibawah ini:

2.2.1.2. Stopword

Stopword adalah kata yang sangat umum yang akan muncul menjadi nilai yang kecil dalam membantu dokumen pilih yang cocok dengan kebutuhan pengguna dikecualikan dari kosa kata seluruhnya (Manning, 2008). Pada stopword ini akan dibuat sebuah dokumen yang berisi kumpulan kata yang sering muncul namun dianggap tidak memiliki makna dalam kaitannya dengan kemiripan antar dokumen. Kata itu seperti kata yang, dan, aku dan lain sebagainya.

Contoh:

Maka akan menjadi seperti dibawah ini:

2.2.1.3. Stemming

Stemming adalah proses untuk mengambalikan sebuah bentuk kata menjadi bentuk kata dasar dengan cara menghilangkan semua imbuhan baik dari awalan, sisipan, akhiran dan kombinasi dari awalan dan akhiran.

aneh tadi ia tidak sabar menunggu

telepon tapi kini malah ragu mengangka

t perasaan cemas menyisip

aneh tadi ia tidak sabar menunggu telepon

tapi kin

malah ragu mengangkat perasaan

cemas menyisip

sabar menunggu telepon ragu mengangkat perasaan

(34)

Contoh:

Maka akan menjadi seperti dibawah ini:

2.2.1.3.1. Stemming Sastrawi

Disebutkan dalam situs www.github.com/sastrawi Sastrawi stemmer merupakan sebuah library stemmer sederhana yang didesain untuk dapat digunakan secara mudah.

Sastrawi stemmer menerapkan algoritma yang berbasis Nazief dan Adriani, kemudian ditingkatkan dengan Algoritma CS (Confix Stripping), kemudian ditingkatkan lagi dengan algortima ECS (Enhanced Confix Stripping), lalu ditingkatkan lagi dengan Modified ECS.

Dengan menggunakan algoritma-algoritma tersebut, banyak persoalan stemming berhasil diatasi:

1. mencegah overstemming dengan kamus kata dasar.

2. mencegah understemming dengan aturan-aturan tambahan. 3. Beberapa contoh kata hasil stem: Buku-buku ~> buku

Menahan ~> tahan

Berbalas – balasan ~> balas

sabar menunggu telepon ragu mengangkat

perasaan cemas menyisip

sabar tunggu telepo

ragu angka

rasa cemas sisi

(35)

2.2.1.3.2. Stemming Nazief dan Adriani

Pada stemming dengan menggunakan algoritma Nazief & Adriani, terdapat beberapa tahapan diantaranya adalah:

1. Mencari kata yang akan di stem dengan menggunakan kamus kata dasar. Jika ditemukan maka algoritma akan berhenti dan kata tersebut diasumsikan sebagai root word.

2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns(“-ku”, “-mu”, atau “-nya”), jika ada.

3. Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a.

3a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut

adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti. Jika tidak ditemukan maka lakukan langkah 3b.

3b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.

4. Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b. 4a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan.

Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.

4b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti.

5. Melakukan Recoding.

6. Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

(36)

2.2.1.4. Text Frequency dan Pembobotan

Semakin banyak kata yang mirip atau sama antara dua dokumen maka semakin dekat kedua dokumen tersebut dan akan memiliki bobot atau nilai yang lebih tinggi (Manning,2008). Pemberian bobot atau nilai akan menggunakan teknik TF/IDF(term frequency / inverse document frequency). TF adalah jumlah kemunculan suatu kata dalam sebuah dokumen, sedangkan IDF adalah inverse dari banyanknya dokumen dimana suatu term tersebut muncul.

Rumus Pembobotan Saton(1983):

W(t,d) = tft,d * idft = tf(t,d) * log(N/nt) (2.1)

Keterangan:

a. W(t,d) = bobot dari term(kata) t dalam dokumen d.

b. Tf(t,d) = frekuensi kemunculan term(kata) t dalam dokumen d.

c. Idft = Inverse document frequency dari kata t.

d. N = jumlah seluruh dokumen.

e. Nt = jumlah dari dokumen training yang mengandung kata t.

2.3. Klasifikasi Teks

Klasifikasi merupakan proses untuk menemukan model atau fungsi yang menjelaskan atau membedakan kelas – kelas data fungsi tersebut digunakan untuk memperkirakan kelas dari suatu objek yang labelnya tidak diketahui. Proses klasifikasi ini terbagi menjadi dua tahapan, yaitu tahap test dan tahap uji. Pada tahap test, sebagian data yang telah diketahui kelas datanya diumpankan untuk membentuk model prediksi (Han dan Kamber, 2006).

(37)

2.3.1.K-Nearest Neighbour

Metode KNN adalah salah satu metode yang digunakan dalam sistem klasifikasi yang menggunakan pendekatan Machine Learning.

Machine Learning merupakan sebuah proses dalam membangun sistem klasifikasi melakui pembelajaran dari sejumlah contoh yang sudah diklasifikasikan sebelumnya (Feldman & Sanger, 2007).

Salah satu masalah yang dihadapi KNN adalah pemilihan nilai K yang tepat. Misalnya, diambil K bernilai 13, kelas 0 dimiliki oleh 7 tetangga yang jauh, sedangkan kelas 1 dimiliki oleh 6 tetangga yang lebih dekat. Hal ini mengakibatkan data uji tersebut akan terdistorsi sehingga ikut tergabung dengan kelas 0. Hal ini karena setiap tetangga tersebut memiliki bobot yang sama terhadap data uji, sedangkan nilai K yang terlalu kecil bisa menyebabkan algoritma terlalu sensitif terhadap noise. Nilai K yang bagus dapat dipilih berdasarkan optimisasi parameter, misalkan dengan cross validation (Eko Prasetyo, 2012).

Berikut ini adalah beberapa karakteristik kelebihan dan kekurangan metode KNN menurut Eko Prasetyo(2012).

1. KNN merupakan algoritma yang menggunakan seluruh data latih untuk melakukan proses klasifikasi (complete storage). Hal ini mengakibatkan proses prediksi yang sangat lama untuk data dalam jumlah yang sangat besar. Pendekatan lain adalah dengan menggunakan mean data dari setiap kelas, kemudian menghitung jarak terdekat data uji ke mean data setiap kelas tersebut. Hal ini memberi keuntungan kerja yang lebih cepat, tetapi hasilnya kurang memuaskan karena model hanya membentuk hyperplane tepat di tengah-tengah di antara 2 kelas yang memisahkan 2 kelas (untuk kasus 2 kelas). Semakin banyak data latih, semakin halus hyperplane

yang dibuat. Ada relasi pertukaran (trade- off relation) antara jumlah data latih pada biaya komputasi dengan kualitas batas keputusan (decision boundary) yang dihasilkan.

(38)

2. Algoritma KNN tidak membedakan setiap fitur dengan suatu bobot seperti pada Artificial Neural Network (ANN) yang berusaha menekan fitur yang tidak mempunyai kontribusi terhadap klasifikasi menjadi 0 pada bagian bobot. KNN tidak memiliki bobot untuk masing- masing fitur.

3. Karena KNN masuk kategori lazy learning yang menyimpan sebagian atau semua data dan hampir tidak ada proses pelatihan, KNN sangat cepat dalam proses pelatihan (karena memang tidak ada), tetapi sangat lambat dalam proses prediksi.

4. Hal yang rumit adalah menentukan nilai K yang paling sesuai. 5. Karena KNN pada prinsipnya memilih tetangga terdekat, parameter

jarak juga penting untuk dipertimbangkan sesuai dengan kasus datanya. Euclidean sangat cocok untuk menggunakan jarak terdekat (lurus) antara dua data, tetapi Manhattan sangat teguh (robust) untuk mendeteksi outlier dalam data.

(39)

2.3.2.Langkah Algoritma KNN

1. Tentukan parameter k = jumlah dokumen tetangga.

2. Hitung kemiripan antara dokumen baru dan dokumen pelatihan dengan menggunakan rumus cosine similarity (Manning, Raghavan, dan Schutze, 2008):

Sim(� , �) = �.

‖ _�‖ ‖ ‖

(2.2)

(2.3)

Keterangan:

- � : dokumen j (dokumen pelatihan)

- � : query dokumen (dokumen test)

- ∑�₌ � _, : jumlah bobot kata i pada dokumen j - ∑�₌ � _, : jumlah bobot kata i pada dokumen q (test)

3. Urutkan nilai kesamaan dan tentukan tetangga terdekat berdasarkan jarak terkecil, banyak tetangga terdekat diambil dari parameter k. 4. Gunakan label mayoritas dari kategori dokumen tetangga sebagai

nilai prediksi dokumen test.

෍ �, �, �

ඩ෍ � , � =

ඩ෍ � , � = Sim(� , �) =

(40)

2.3.3.Perhitungan Akurasi

Perhitungan akurasi dilakukan dengan menggunakan metode

cross-validation. Pada metode cross-validation, data dibagi menjadi k

subset atau fold yang saling bebas secara acak, yaitu S1, S2, ...., Sk, dengan ukuran setiap subset sama. Pelatihan dan pengujian dilakukan sebanyak k kali. Pada iterasi ke-i, subse S1 diperlukan sebagai data pengujian, dan subset lainnya sebagai data pelatihan. Tingkat akurasi dihitung dengan membagi jumlah keseluruhan klasifikasi yang benar dengan jumlah semua instance pada data awal (Han & Kamber 2006). Jika menggunakan 3 fold, maka akan dibagi menjadi 3 tahap seperti dibawah ini:

Tahap I

1. fold 1 sebagai data uji. 2. fold 2 sebagai data pelatihan. 3. fold 3 sebagai data pelatihan. Tahap II

1. fold 2 sebagai data uji. 2. fold 1 sebagai data pelatihan. 3. fold 3 sebagai data pelatihan. Tahap III

1. fold 3 sebagai data uji. 2. fold 1 sebagai data pelatihan. 3. fold 2 sebagai data pelatihan.

Setelah dilakukan cross-validation maka dilanjutkan dengan

precision untuk menentukan akurasi.

Precision = �ℎ � � ��

(41)

BAB III

METODOLOGI PENELITIAN

3.1. Gambaran Umum Sistem

Dalam penelitian ini, sistem yang dibangun adalah sistem pemerolehan informasi yang menggunakan data dalam format .txt. Sistem ini memiliki fungsi dalam melakukan identifikasi terhadap makna kata sabar dalam sebuah karya sastra Indonesia. Dalam proses identifikasi ini, dilakukan proses klasifikasi menggunakan metode KNN. Data dalam sistem ini akan dibagi menjadi 2 yaitu data traning

dan data testing. Data training di masukan ke dalam folder sesuai dengan maknanya.

Alur dalam sistem ini diawali dengan tahap preprocessing yang akan dilakukan terhadap data training maupun data testing. Prosesnya diawali dengan melakukan tokenisasi. Dalam tokenisasi baik data

training maupun data testing yang awalnya adalah sebuah kalimat lengkap dengan tanda bacanya akan dilakukan penghapusan karakter tanda baca, pemenggalan kata serta mengubah semua huruf menjadi huruf kecil. Tahap selanjutnya dalam preprocessing adalah stopword. Pada tahap stopword, akan dilakukan penghapusan kata-kata yang tidak mempengaruhi makna kalimat tersebut seperti kata ganti orang dan kata penghubung. Tahap selanjutnya yaitu stemming. Pada tahap stemming

akan dilakukan pengembalian kata ke bentuk kata dasarnya. Setelah ketiga tahap tersebut dilalui, tahap selanjutnya adalah menghitung tf atau jumlah kemunculan kata dalam dokumen. Setelah itu akan dilakukan proses penghitungan bobot. Tahap selanjutnya adalah tahap klasifikasi. Pada tahap klasifikasi ini, langkah awalnya dengan menentukan nilai k atau nilai jarak, kemudian menghitung cosine similarity, pengurutan kemiripan vektor dan menentukan label mayoritas. Berikut ini adalah skema yang digunakan. Gambaran sistem secara umum dapat dilihat pada gambar 3.1. dibawah ini:

(42)

Gambar 3.1 Gambaran Umum Sistem

3.1.1. Input Data

Data yang akan digunakan adalah data berupa kumpulan kalimat

yang mengandung kata dasar “sabar” yang didapatkan dari situs

CORCI dan sudah diklasifikasikan sebelumnya kedalam 6 kategori, yaitu: kata sifat, komunikasi, keadaan, urutan tindakan, pekerjaan, urutan giliran. Jumlah data sebanyak 108. Rincian banyaknya dokumen dalam sebuah kelas dapat dilihat pada tabel 3.1.1 dibawah ini:

Tabel 3. 1. 1. Daftar Data

No Kelas Jumlah data

1 Keadaan 33

2 Urutan Giliran 22

3 Urutan Tindakan 20

4 Komunikasi 15

5 Sifat 12

6 Pekerjaan 6

Input data

Preprocessing

Klasifikasi KNN

Hasil

Klasifikasi

Menentukan k Menghitung Cosine Similarity Mengurutkan Vektor Mencari label mayoritas Preprocessing

Tokenizing Stopword Stemming Text Frequency

(43)

3.1.2.Prepocessing

Pada tahap preprocessing ada 4 tahap yang harus berurutan yaitu: 1. Tokenisasi

- Sekumpulan Kalimat akan dipecah menjadi token.

- Kata diubah menjadi huruf kecil.

- Kata yang sudah menjadi token dan di ubah menjadi huruf kecil akan di hapus karakter yang tidak penting seperti tanda baca.

- Contoh hasil Tokenisasi dapat dilihat pada lampiran 1.

2. Stopword

- Pada tahap ini akan dilakukan penghapusan pada kata yang tidak berpengaruh terhadap proses pemerolehan informasi.

- Contoh hasil Stopword dapat dilihat pada lampiran 2.

3. Stemming

- Pada tahap ini kata yang memiliki imbuhan pada awalan, akhiran maupun awalan dan akhiran akan dikembalikan menjadi kata dasar.

- Contoh hasil Stemming dapat dilihat pada lampiran 3.

4. Text Frequency / pembobotan kata

- Pada tahap ini akan dilakukan pembobotan nilai dengan menggunakan TF/IDF.

- Hasil perhitungan Text Frequency dapat dilihat pada lampiran 4.

(44)

3.1.3.Klasifikasi KNN

Setelah melewati 4 tahap pada processing, selanjutnya adalah proses klasifikasi. Proses klasifikasi ini menggunakan metode KNN yang terbagi menjadi 4 tahap yaitu:

1. Menentukan k

- Nilai K adalah jumlah dokumen tetangga terdekat. Nilai K yang digunakan pada contoh ini adalah K= 8 dan K = 10.

2. Menghitung Cosine Similarity

- Cosine Similarity berfungsi untuk menghitung kemiripan antar dokumen.

- Hasil Cosine Similarity dapat dilihat padalampiran 5.

3. Mengurutkan Vektor.

- Data yang digunakan untuk mengurutkan vektor ini berasal dari hasil Cosine Similarity yang diurutkan dari nilai terkecil k terbesar.

- Hasil pengurutan dapat dilihat pada lampiran 6.

4. Mencari label mayoritas.

- Penentuan label mayoritas dilakukan dengan berdasarkan pada perolehan kelas terbanyak dalam urutan vektor sesuai dengan nilai K. Sebagai contoh jika nilai K = 8 dan kelas terbanyak yang muncul dalam 8 urutan vektor tersebut adalah kelas Keadaan, maka hasil klasifikasinya adalah kelas Keadaan.

- Hasil label mayoritas dapat dilihat pada lampiran 7.

- Jika k = 8 maka data test termasuk dalam kelas Sifat.

- Jika k = 10 maka data test termasuk dalam kelas komunikasi.

(45)

3.2. Analisa Kebutuhan Sistem 3.2.1.Definisi Aktor

Dalam sistem ini hanya ada 1 aktor yaitu user. User adalah aktor yang memiliki fasilitas untuk mengelola serta mengakses sistem seperti terlihat pada tabel 3.2.1 dibawah ini:

Tabel 3. 2. 1. Definisi Aktor

Aktor Fasilitas Akses

User - Input Dokumen

- Klasifikasi Dokumen

3.2.2.Diagram Use Case

Detail diagram use case dapat dilihat seperti pada gambar 3.2.2 dibawah ini:

(46)

3.2.3.Skenario Use Case

3.2.3.1. Skenario Use Case Input Dokumen 3.2.3.1.1. Input Kamus Stopword

Nama Use Case : Input Kamus Stopword

Aktor : User

Kondisi Awal : User menjalankan sistem

Kondisi Akhir : Dokumen kamus Stopword masuk kedalam sistem. Seperti pada tabel 3.2.3.1.1. berikut:

Tabel 3. 2. 3. 1. 1. Narasi Input Kamus Stopword

Aksi Aktor Reaksi sistem

1. User menekan tombol browse pada bagian kamus Stopword

2.Sistem menampilkan form load data

3. User memasukan

kamus Stopword

4. Sistem menampilkan

lokasi direktori kamus

(47)

3.2.3.1.2. Input Kamus Stemming

Nama Use Case : Input Kamus Stemming

Aktor : User

Kondisi Awal : User menjalankan sistem

Kondisi Akhir : Dokumen kamus Stemming masuk kedalam sistem. Seperti pada tabel 3.2.3.1.2 berikut:

Tabel 3. 2. 3. 1. 2. Narasi Input Kamus Stemming

Aksi Aktor Reaksi sistem

1.User menekan tombol browse pada bagian kamus Stemming

2. Sistem menampilkan form load data

3.User memasukan

kamus Stemming

4. Sistem menampilkan lokasi direktori kamus Stemming

(48)

3.2.3.1.3. Input Data Training

Nama Use Case : Input Data Training

Aktor : User

Kondisi Awal : User menjalankan sistem.

Kondisi Akhir : Dokumen Training masuk kedalam sistem. Seperti pada tabel 3.2.3.1.3 berikut:

Tabel 3. 2. 3. 1. 3. Narasi Input Data Training

Aksi Aktor Reaksi sistem

1.User menekan tombol browse pada bagian Data Training

2.Sistem menampilkan form load data

3.User memasukan Data

Training

4. Sistem menampilkan lokasi direktori Data Training

(49)

3.2.3.1.4. Input Data Testing

Nama Use Case : Input Data Testing

Aktor : User

Kondisi awal : User menjalankan sistem.

Kondisi Akhir : Dokumen Testing masuk kedalam sistem. Seperti pada tabel 3.2.3.1.4 berikut:

Tabel 3. 2. 3. 1. 4. Narasi Input Data Testing

Aksi Aktor Reaksi sistem

1.User menekan tombol browse pada bagian Data Testing

2.Sistem menampilkan form load data

3.User memasukan Data

Testing

4. Sistem menampilkan lokasi direktori Data Testing

(50)

3.2.3.2. Skenario Use Case Klasifikasi Dokumen 3.2.3.2.1. Input Nilai K

Nama Use Case : Input Nilai K

Aktor : User

Kondisi Awal : User menjalankan sistem.

Kondisi Akhir : Nilai K tersimpan pada sistem. Seperti pada tabel 3.2.3.2.1 berikut:

Tabel 3. 2. 3. 2. 1. Narasi Input Nilai K

Aksi Aktor Reaksi sistem

1. User menekan dan

memilih Nilai k pada bagian Nilai K

2.Sistem menyimpan nilai K yang telah dipilih

(51)

3.2.3.2.2. Klasifikasi

Nama Use Case : Klasifikasi

Aktor : User

Kondisi Awal : User menjalankan sistem.

Kondisi Akhir : Sistem menampilkan Hasil klasifikasi menggunakan knn. Seperti pada tabel 3.2.3.2.2 berikut:

Tabel 3. 2. 3. 2. 2. Narasi Klasifikasi

Aksi Aktor Reaksi sistem

1. User menekan button klasifikasi

2. Sistem melakukan proses

preprocessing dan

klasifikasi serta

menampilkan hasil

(52)

3.3. Perancangan Model Penyimpanan Data

Dalam sistem ini, terdapat penyimpanan data dalam bentuk .txt. Beberapa diantaranya adalah sebagai berikut:

1. Stopword.txt

Berisi daftar stopword yang akan digunakan untuk melakukan proses stopword / menghilangkan kata yang tidak mempengaruhi makna.

2. Stemming.txt

Berisi daftar kata dasar yang akan digunakan untuk mengembalikan daftar kata dalam dokumen yang telah melalui tahap stopword.

3.4. Diagram Konteks

Detail diagram konteks dapat dilihat pada gambar 3.4 berikut:

User

Sistem Identifikasi Makna Kata Sabar Menggunakan KNN Klasifikasi dokumen

Hasil klasifikasi

(53)

3.5. Diagram Aktivitas

3.5.1.Diagram Aktivitas Proses Input Dokumen 3.5.1.1. Input Stopword

Detail diagram aktivitas input Stopword dapat dilihat seperti pada gambar 3.5.1.1 dibawah ini:

Gambar 3. 5. 1. 1. Diagram Aktivitas Input Stopword

3.5.1.2. Input Stemming

Detail diagram aktivitas input Stemming dapat dilihat seperti pada gambar 3.5.1.2 dibawah ini:

(54)

3.5.1.3. Input Data Training

Detail diagram aktivitas input Data Training dapat dilihat seperti pada gambar 3.5.1.3 dibawah ini:

Gambar 3. 5. 1. 3. Diagram Aktivitas Input Data Training 3.5.1.4. Input Data Testing

Detail diagram aktivitas input Data Testing dapat dilihat seperti pada gambar 3.5.1.4 dibawah ini:

(55)

3.5.2.Diagram Aktivitas Proses Klasifikasi 3.5.2.1. Input Nilai K

Detail diagram aktivitas input Data Testing dapat dilihat seperti pada gambar 3.5.2.1 dibawah ini:

Gambar 3. 5. 2. 1. Diagram Aktivitas Input Nilai K 3.5.2.2. Klasifikasi

Detail diagram aktivitas input Data Testing dapat dilihat seperti pada gambar 3.5.2.2 dibawah ini:

(56)

BAB IV

IMPLEMENTASI

4.1. Spesifikasi Software dan Hardware yang dibutuhkan 4.1.1.Spesifikasi Software

Spesifikasi software yang digunakan adalah sebagai berikut: Sistem operasi : Windows 7 Ultimate

Aplikasi : Netbeans IDE 8.1

Bahasa Pemrograman : Java (jdk 1.7.0_13)

4.1.2.Spesifikasi Hardware

Spesifikasi hardware yang digunakan adalah sebagai berikut:

Processor : Intel core i3

Memory : 4 GB

(57)

4.2. Implementasi Antar Muka

Tampilan antar muka sistem dapat dilihat pada gambar 4.2.1. dan 4.2.2 seperti berikut:

Gambar 4. 2. 1. Antar Muka Awal

(58)

4.3. Implementasi Sistem

4.3.1.Implementasi Preprocessing 4.3.1.1. Implementasi Tokenisasi

Pada langkah tokenisasi ini akan dilakukan penghapusan tanda baca, pemotongan kalimat menjadi token dan mengubah huruf menjadi lower case seperti pada list code 4.3.1.1 dibawah ini:

public void Tokenize() { if (tokenized) { return; } try {

FileInputStream fis = new FileInputStream(filename); Scanner s = new Scanner(fis);

if (daftarKata == null) {

daftarKata = new ArrayList<>(); } else {

daftarKata.clear(); }

while (s.hasNext()) { String text = s.next();

String kata = text.replaceAll("[^a-zA-Z0-9&&[^\\-]]", ""); daftarKata.add(kata);

}

tokenized = true;

} catch (FileNotFoundException ex) { tokenized = false;

Logger.getLogger(Dokumen.class.getName()).log(Level.SEVERE, null, ex);

} }

(59)

4.3.1.2. Implementasi Stopword

Pada langkah Stopword ini akan dilakukan penghapusan kata yang tidak mempengaruhi makna seperti kata penghubung dan lain sebagainya berdasarkan kamus Stopword seperti pada list code 4.3.1.2 dibawah ini:

public void bacakamusstopword(String filename) { try {

FileInputStream FIS = new FileInputStream(filename); Scanner sc = new Scanner(FIS);

kamusStopWord = new ArrayList<>(); while (sc.hasNext()) {

kamusStopWord.add(sc.next()); }

} catch (FileNotFoundException ex) {

Logger.getLogger(tampilstopword.class.getName()).log(Level.SEVERE, null, ex);

}}

public void hapusstopword() { if (removedStopWords) { return;

}

if (kamusStopWord == null) {

throw new IllegalStateException("Kamus stopword belum ada"); }

if (!tokenized) {

throw new IllegalStateException("Dokumen belum di-tokenize"); }

Iterator<String> i = daftarKata.iterator(); while (i.hasNext()) {

String token = i.next();

if (kamusStopWord.contains(token)) { i.remove();

}}

removedStopWords = true; }

(60)

4.3.1.3. Implementasi Stemming

Pada langkah Stemming ini akan dilakukan pengembalian kata ke bentuk kata dasarnya berdasarkan kamus kata dasar seperti pada list code 4.3.1.3 dibawah ini:

public void bacakamus(String path) { try {

FileInputStream fis = new FileInputStream(path); Scanner s = new Scanner(fis);

kamusKataDasar = new HashSet<>(); while (s.hasNext()) {

kamusKataDasar.add(s.next()); }

} catch (FileNotFoundException ex) {

Logger.getLogger(tampilstopword.class.getName()).log(Level.SEVERE, null, ex);

}}

public void stem() { if (stemmed) { return; }

if (kamusKataDasar == null || kamusKataDasar.isEmpty()) { throw new IllegalStateException("Kamus kata dasar belum ada"); }

if (!removedStopWords) {

throw new IllegalStateException("Stopwords belum dibuang"); }

Lemmatizer stemmer = new DefaultLemmatizer(kamusKataDasar); for (int i = 0; i < daftarKata.size(); i++) {

String kata = daftarKata.get(i);

daftarKata.set(i, stemmer.lemmatize(kata)); }

stemmed = true; }

(61)

4.3.1.4. Implementasi Tf

Pada langkah Tf ini akan dilakukan penghitungan frekuensi kemunculan kata dalam sebuah dokumen seperti pada list code 4.3.1.4 dibawah ini:

public int getTermFrequency(String term, Dokumen doc) { TermDocumentPair key = new TermDocumentPair(term, doc); if (tableTF.containsKey(key)) {

return tableTF.get(key); } else {

int count = 0;

for (String kata : doc.daftarKata) { if (kata.equals(term)) {

count++; }

}

tableTF.put(key, count); return count;

} }

(62)

4.3.1.5. Implementasi Idf

Pada langkah Idf ini akan dilakukan penghitungan inverse dari banyaknya dokumen dimana suatu term tersebut muncul seperti pada list code 4.3.1.5 dibawah ini:

public int getDocumentFrequency(String term) { if (tableDF.containsKey(term)) {

return tableDF.get(term); } else {

int c = 0;

for (Dokumen d : master.documents) { if (d.daftarKata.contains(term)) { c++;

} }

tableDF.put(term, c); return c;

} }

public double getInverseDocumentFrequency(String term) { return Math.log(master.documents.size() /

getDocumentFrequency(term)); }

(63)

4.3.1.6. Implementasi Pembobotan

public double getWeight(String term, Dokumen doc) { return getTermFrequency(term, doc) *

getInverseDocumentFrequency(term); }

public double getInnerProduct(String term, Dokumen doc) { return getWeight(term, doc) * getWeight(term, docTest); }

public Matrix getPanjangVektor() {

int r = allTerms.size(), c = master.documents.size(); Matrix m = new Matrix(r, c);

String[] terms = new String[r]; allTerms.toArray(terms); for (int i = 0; i < r; i++) { for (int j = 0; j < c; j++) {

double w = getWeight(terms[i], master.documents.get(j)); m.set(i, j, w * w);

} } return m; }

(64)

4.3.2.Implementasi Klasifikasi

4.3.2.1. Implementasi Hiitung Cosine Similarity

public Map<Dokumen, Double> cosineSimilarities() { int r = allTerms.size(), c = master.documents.size(); Matrix panjangVektor = getPanjangVektor(); Matrix innerProduct = new Matrix(r, c); String[] terms = new String[r];

allTerms.toArray(terms); for (int i = 0; i < r; i++) { for (int j = 0; j < c; j++) {

innerProduct.set(i, j, getInnerProduct(terms[i], master.documents.get(j)));

} }

Map<Dokumen, Double> res = new HashMap<>(c - 1); int docTestIdx = 0;

for (int i = 0; i < master.documents.size(); i++) { Dokumen d = master.documents.get(i); if (d == docTest) {

docTestIdx = i; continue; }

double atas = innerProduct.sumCol(i);

double bawah = Math.sqrt(panjangVektor.sumCol(i) * panjangVektor.sumCol(docTestIdx));

res.put(d, atas / bawah); }

return res; }

(65)

4.3.2.2. Implementasi Hitung Label Mayoritas

public Kelas classify(int k) {

Map<Dokumen, Double> matrix = cosineSimilarities();

TreeSet<Map.Entry<Dokumen, Double>> asd = new TreeSet(new Comparator<Map.Entry<Dokumen, Double>>() {

@Override

public int compare(Map.Entry<Dokumen, Double> o1, Map.Entry<Dokumen, Double> o2) {

return Double.compare(o1.getValue(), o2.getValue()); }

});

asd.addAll(matrix.entrySet());

List<Entry<Dokumen, Double>> neighbors = new ArrayList<>(asd).subList(0, k);

int numOfClass = master.classes.size(); int[] as = new int[numOfClass];

for (Entry<Dokumen, Double> neighbor : neighbors) { for (int i = 0; i < as.length; i++) {

Kelas kelas = master.classes.get(i);

if (kelas.getDaftarDokumen().contains(neighbor.getKey())) { as[i]++;

}}}

int max = max(as);

return master.classes.get(max); }

static int max(int[] arr) { int max = arr[0]; for (int i : arr) { if (i > max) { max = i; }

}

return max; }

(66)

BAB V

HASIL DAN PEMBAHASAN

5.1. Pengujian

5.1.1.K fold Cross Validation

Dalam pengujian ini dilakukan manual dengan menggunakan metode k fold cross validation. Dalam pengujian ini data training akan dibagi kedalam k fold. Fold ini akan diisi dengan data training yang dibagi ke masing-masing fold secara merata. Setiap fold nantinya akan bergantian menjadi data training dan data testing sesuai dengan jumlah fold. Setelah proses penghitungan akurasi dilakukan maka akan dihitung presentasi data yang terkasifikasi dengan tepat oleh sistem sesuai dengan kategori awal.

(67)

5.1.1.1. 3 Fold

Pada pengujian dengan menggunakan 3 fold, 108 data training akan dibagi menjadi 3 bagian seperti pada tabel 5.1.1.1 dibawah ini:

Tabel 5. 1. 1. 1. Pembagian Data 3 Fold

fold 1 fold 2 fold 3

keadaan1 keadaan12 keadaan23

keadaan2 keadaan13 keadaan24

keadaan3 keadaan14 keadaan25

keadaan4 keadaan15 keadaan26

keadaan5 keadaan16 keadaan27

keadaan6 keadaan17 keadaan28

keadaan7 keadaan18 keadaan29

keadaan8 keadaan19 keadaan30

keadaan9 keadaan20 keadaan31

keadaan10 keadaan21 keadaan32

keadaan11 keadaan22 keadaan33

Pekerjaan1 Pekerjaan3 Pekerjaan5

Pekerjaan2 Pekerjaan4 Pekerjaan6

sifat1 sifat5 sifat9

sifat2 sifat6 sifat10

sifat3 sifat7 sifat11

sifat4 sifat8 sifat12

komunikasi1 komunikasi6 komunikasi11

komunikasi2 komunikasi7 komunikasi12

komunikasi3 komunikasi8 komunikasi13

komunikasi4 komunikasi9 komunikasi14

komunikasi5 komunikasi10 komunikasi15

urutan giliran1 urutan giliran8 urutan giliran15 urutan giliran2 urutan giliran9 urutan giliran16 urutan giliran3 urutan giliran10 urutan giliran17 urutan giliran4 urutan giliran11 urutan giliran18 urutan giliran5 urutan giliran12 urutan giliran19 urutan giliran6 urutan giliran13 urutan giliran20 urutan giliran7 urutan giliran14 urutan giliran21 urutan tindakan1 urutan tindakan8 urutan giliran22 urutan tindakan2 urutan tindakan9 urutan tindakan15 urutan tindakan3 urutan tindakan10 urutan tindakan16 urutan tindakan4 urutan tindakan11 urutan tindakan17 urutan tindakan5 urutan tindakan12 urutan tindakan18 urutan tindakan6 urutan tindakan13 urutan tindakan19 urutan tindakan7 urutan tindakan14 urutan tindakan20

(68)

Dengan pembagian data untuk setiap tahap: Tahap I

fold 1 sebagai data uji.

fold 2 sebagai data pelatihan.

fold 3 sebagai data pelatihan. Tahap II

fold 2 sebagai data uji.

fold 1 sebagai data pelatihan.

fold 3 sebagai data pelatihan. Tahap III

fold 3 sebagai data uji.

fold 1 sebagai data pelatihan.

fold 2 sebagai data pelatihan.

(69)

5.2. Analisa Hasil

Berdasar pada pengujian yang telah dilakukan pada langkah sebelumnya maka diperoleh rincian nilai akurasi dengan menggunakan nilai k = 4 hingga nilai k = 7.

a. Pengujian dengan nilai K = 4 Tahap 1 (K = 4)

Pada pengujian dengan 36 data uji pada tahap 1, diperoleh hasil 10 data yang relevan / terklasifikasi dengan benar, 26 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 1 diperoleh nilai akurasi 27,8%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.1.1 dibawah ini:

Tabel 5. 2. 1. 1 Tahap 1 (K = 4)

Jml data 36

Jml data relevan 10

Jml data tidak relevan 26

Akurasi 27,8

Tahap 2 (K = 4)

Pada pengujian dengan 36 data uji pada tahap 2, diperoleh hasil 10 data yang relevan / terklasifikasi dengan benar, 26 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 2 diperoleh nilai akurasi 27,8%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.1.2 dibawah ini:

Tabel 5. 2. 1. 2. Tahap 2 (K = 4)

Jml data 36

Jml data relevan 10

Jml data tidak relevan 26

(70)

Tahap 3 (K= 4)

Pada pengujian dengan 36 data uji pada tahap 3, diperoleh hasil 8 data yang relevan / terklasifikasi dengan benar, 28 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 3 diperoleh nilai akurasi 22,2%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.1.3 dibawah ini:

Tabel 5. 2. 1. 3. Tahap 3 (K = 4)

Jml data 36

Jml data relevan 8

Jml data tidak relevan 28

Akurasi 22,2

Dari 3 tahap pengujian yang telah dilakukan dengan menggunakan nilai K = 4 diperoleh nilai rata – rata 25,9% dengan rincian seperti pada tabel 5.2.1.4 dibawah ini:

Tabel 5. 2. 1. 4. Rata - Rata Akurasi (K = 4)

K = 4 %

Akurasi Tahap 1 27,8

Akurasi Tahap 2 27,8

Akurasi Tahap 3 22,2

(71)

b. Pengujian dengan nilai K = 5 Tahap 1 (K = 5)

Pada pengujian dengan 36 data uji pada tahap 1, diperoleh hasil 9 data yang relevan / terklasifikasi dengan benar, 27 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 1 diperoleh nilai akurasi 25%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.2.1 dibawah ini:

Tabel 5. 2. 2. 1. Tahap 1 (K = 5)

Jml data 36

Jml data relevan 9

Jml data tidak relevan 27

Akurasi 25

Tahap 2 (K = 5)

Pada pengujian dengan 36 data uji pada tahap 2, diperoleh hasil 9 data yang relevan / terklasifikasi dengan benar, 27 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 2 diperoleh nilai akurasi 25%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.2.2 dibawah ini:

Tabel 5. 2. 2. 2. Tahap 2 (K = 5)

Jml data 36

Jml data relevan 9

Jml data tidak relevan 27

(72)

Tahap 3 (K = 5)

Pada pengujian dengan 36 data uji pada tahap 3, diperoleh hasil 11 data yang relevan / terklasifikasi dengan benar, 25 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 3 diperoleh nilai akurasi 30,6%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.2.3 dibawah ini:

Tabel 5. 2. 2. 3. Tahap 3 (K = 5)

Jml data 36

Jml data relevan 11

Jml data tidak relevan 25

Akurasi 30,6

Dari 3 tahap pengujian yang telah dilakukan dengan menggunakan nilai K = 5 diperoleh nilai rata – rata 26,9% dengan rincian seperti pada tabel 5.2.2.4 dibawah ini:

Tabel 5. 2. 2. 4. Rata - Rata Akurasi (K = 5)

K = 5 %

Akurasi Tahap 1 25

Akurasi Tahap 2 25

Akurasi Tahap 3 30,6

(73)

c. Pengujian dengan nilai K = 6 Tahap 1 (K = 6)

Pada pengujian dengan 36 data uji pada tahap 1, diperoleh hasil 12 data yang relevan / terklasifikasi dengan benar, 24 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 1 diperoleh nilai akurasi 33,3%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.3.1 dibawah ini:

Tabel 5. 2. 3. 1. Tahap 1 (K = 6)

Jml data 36

Jml data relevan 12

Jml data tidak relevan 24

Akurasi 33,3

Tahap 2 (K = 6)

Pada pengujian dengan 36 data uji pada tahap 2, diperoleh hasil 12 data yang relevan / terklasifikasi dengan benar, 24 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 2 diperoleh nilai akurasi 33,3%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.3.2 dibawah ini:

Tabel 5. 2. 3. 2. Tahap 2 (K = 6)

Jml data 36

Jml data relevan 12

Jml data tidak relevan 24

(74)

Tahap 3 (K = 6)

Pada pengujian dengan 36 data uji pada tahap 3, diperoleh hasil 10 data yang relevan / terklasifikasi dengan benar, 26 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 3 diperoleh nilai akurasi 27,8%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.3.3 dibawah ini:

Tabel 5. 2. 3. 3. Tahap 3 (K = 6)

Jml data 36

Jml data relevan 10

Jml data tidak relevan 26

Akurasi 27,8

Dari 3 tahap pengujian yang telah dilakukan dengan menggunakan nilai K = 6 diperoleh nilai rata – rata 31,5% dengan rincian seperti pada tabel 5.2.3.4 dibawah ini:

Tabel 5. 2. 3. 4. Rata - Rata Akurasi (K = 6)

K = 6 %

Akurasi Tahap 1 33,3

Akurasi Tahap 2 33,3

Akurasi Tahap 3 27,8

(75)

d. Pengujian dengan nilai K = 7. Tahap 1 (K = 7)

Pada pengujian dengan 36 data uji pada tahap 1, diperoleh hasil 14 data yang relevan / terklasifikasi dengan benar, 22 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 1 diperoleh nilai akurasi 38,89%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.4.1 dibawah ini:

Tabel 5. 2. 4. 1. Tahap 1 (K = 7)

Jml data 36

Jml data relevan 14

Jml data tidak relevan 22

Akurasi 38,89

Tahap 2 (K = 7)

Pada pengujian dengan 36 data uji pada tahap 2, diperoleh hasil 14 data yang relevan / terklasifikasi dengan benar, 22 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 2 diperoleh nilai akurasi 38,89%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.4.2 dibawah ini:

Tabel 5. 2. 4. 2. Tahap 2 (K = 7)

Jml data 36

Jml data relevan 14

Jml data tidak relevan 22

(76)

Tahap 3 (K = 7)

Pada pengujian dengan 36 data uji pada tahap 3, diperoleh hasil 13 data yang relevan / terklasifikasi dengan benar, 23 data lainnya berhasil terklasifikasi namun tidak sesuai dengan kelas atau kategori yang sebenarnya. Pada pengujian tahap 3 diperoleh nilai akurasi 36,1%. Rincian lengkapnya dapat dilihat seperti pada tabel 5.2.4.3 dibawah ini:

Tabel 5. 2. 4. 3. Tahap 3 (K = 7)

Jml data 36

Jml data relevan 13

Jml data tidak relevan 23

Akurasi 36,1

Dari 3 tahap pengujian yang telah dilakukan dengan menggunakan nilai K = 7 diperoleh nilai rata – rata 37,96% dengan rincian seperti pada tabel 5.2.4.4 dibawah ini:

Tabel 5. 2. 4. 4. Rata - Rata Akurasi (K = 7)

K = 7 %

Akurasi Tahap 1 38,89

Akurasi Tahap 2 38,89

Akurasi Tahap 3 36,1

(77)

Dari perhitungan akurasi menggunakan cross validation 3 fold

dan menggunakan nilai K = 4 hingga nilai K = 7 didapatkan akurasi tertinggi pada nilai K = 7 yang dilakukan pada tahap 1 dan tahap 2 yaitu sebesar 38,89%. Rata – rata akurasi tertinggi dari tiga tahap cross validation dengan menggunakan 3 fold adalah sebesar 37,96 dengan nilai K = 7.

Dalam proses klasifikasi ini tentunya terdapat faktor yang mempengaruhi hasil akurasi. Nilai tf atau frekuensi kemunculan kata dalam dokumen antara data training dan data testing sangat berpengaruh. Banyaknya kesesuaian tf antara data training dengan data test dalam sebuah kelas akan sangat menentukan hasil klasifikasi.

Makin bervariasinya sebuah tf yang memiliki kesesuaian dengan data training akan meningkatkan keakuratan hasil klasifikasi dari data testing. Sebaliknya dengan minimnya kesesuaian variasi tf dengan data training maka akan membuat kurang akuratnya hasil klasifikasi.

(78)

BAB VI

PENUTUP

6.1. Kesimpulan

Melalui penelitian yang telah dilakukan dapat disimpulkan bahwa: 1. Identifikasi makna kata sabar dengan menggunakan metode KNN

dan metode cross validation dengan nilai fold 3 memperoleh hasil akurasi tertinggi sebesar 38,89% dengan nilai K = 7 yang terdapat pada tahap 1 dan tahap 2. Rata – rata akurasi tertinggi yang didapat adalah 37,96% dengan nilai K = 7.

2. Penentuan nilai K dalam klasifikasi dengan metode KNN sangat mempengaruhi hasil akhir klasifikasi. Jika nilai K yang dipilih sangat kecil maka hasilnya akan kurang maksimal karena yang menjadi hasil akhir adalah kelas yang memiliki nilai cosine similarity paling dekat dengan data testing, bukan berdasarkan banyaknya label mayoritas yang muncul.

3. Pemilihan data yang akan digunakan sebagai data training sangat mempengaruhi hasil akhir klasifikasi.

4. Banyaknya data training akan sangat mempengaruhi hasil klasifikasi karena dipengaruhi oleh adanya nilai kesesuaian tf yang sering muncul antara data training dan data testing.

5. Banyaknya variasi kata yang sesuai antara data training dan data testing dalam dokumen akan mempengaruhi hasil akhir.

(79)

6.2. Saran

1. Daftar kata dalam Kamus Stopword sangat berpengaruh dalam mengeliminasi kata yang tidak mempengaruhi makna pada data training dan data testing. Sebuah kamus Stopword yang tepat akan mengurangi variasi kata yang tidak memiliki kecocokan diantara data training dan data testing.

2. Penggunaan kamus sinonim dapat menambah akurasi klasifikasi. Sebuah kata yang telah melewati tahap stopword dan stemming yang memiliki makna sama namun dengan penulisan yang berbeda dapat memberikan nilai yang lebih tinggi pada tahap pembobotan dan dapat memberikan pengaruh yang lebih baik pada tahap klasifikasi.

(80)

DAFTAR PUSTAKA

Croft, W. Bruce, Metzler, Donald, Strohman, Trevor. 2010. Search Engines Information Retrieval in Practice. Pearson Education, Inc. United States of America.

Dwijatmoko, B.B. 2016. Ideologi Kesabaran dalam Karya Sastra Indonesia. Buku Kumpulan Makalah Kongres Internasional Masyarakat Linguistik Indonesia, pp. 103-106.

Feldman, Ronen, Sanger, James. 2007. The Text Mining Handbook. Cambridge, New York.

Han, J & Kamber, M. 2006. Second Edition: Data Mining concepts and Techniques. Morgan Kaufmann, San Fransisco.,

Hersh, William R. 2003. Information Retrieval: a health and biomedical perspective. Springer-Verlag New York, Inc United States of America. Librian, Andy, Kukuh, R. 2014. Library Sastrawi Stemmer

https://github.com/jsastrawi/jsastrawi. Diakses tanggal 15 September 2016.

Manning, Christopher D., Raghavan, Prabhakar, Schutze, Hinrich. 2008.

Introduction to Information Retrieval. Cambridge University Press. Cambridge, New York.

Prasetyo, Eko. 2012. Data Mining: Konsep dan Aplikasi menggunakan MATLAB. Andi, Yogyakarta.

Widyaastuti P, Veverly. 2014. “Sistem Klasifikasi Dokumen Bahasa Jawa Dengan Metode K-Nearest Neighbor(K-NN)”. Skripsi Tidak Dipublikasikan. Universitas Sanata Dharma, Yogyakarta.

Yusup, Pawit M., Subekti, Priyo. 2010. Teori dan praktik penelusuran informasi (information retrieval) : dilengkapi dengan daftar alamat situs, jurnal ilmiah elektronik, perpustakaan virtual perguruan tinggi, koran elektronik, dan beberapa situs mesin penelusuran informasi terkenal. Kencana, Jakarta.

(1)

(2)

LAMPIRAN 6

Hasil Pengurutan Vektor

(3)

Hasil Label Mayoritas

(4)

LAMPIRAN 8

Hasil Cross Validation 3 Fold

Pada tabel dibawah ini, angka 1 menunjukan data training yang terklasifikasi dengan benar.

Tahap 1

K = 4 K = 5 K = 6 K = 7

keadaan1 1

keadaan2 1 1 1

keadaan3

keadaan4 1 1

keadaan5 1 1

keadaan6 1 1

keadaan7 1 1 1

keadaan8 1

keadaan9 1 1

keadaan10 1

keadaan11 1

Pekerjaan1

Pekerjaan2

sifat1 1

sifat2

sifat3 1

sifat4

komunikasi1

komunikasi2

komunikasi3 1

komunikasi4 1 1 1

komunikasi5

urutan giliran1 1 1

urutan giliran2 1 1

urutan giliran3 1 1

urutan giliran4 1 1

urutan giliran5 1 1 1

urutan giliran6 1 1 1

urutan giliran7 1 1 1

urutan tindakan1

urutan tindakan2

urutan tindakan3

urutan tindakan4 1 1

(5)

urutan tindakan7 1 Tahap 2

K = 4

K = 5 K = 6 K = 7

keadaan12 1 1

keadaan13 1 1 1

keadaan14 1 1

keadaan15 1

keadaan16 1 1 1 1

keadaan17

keadaan18 1 1

keadaan19 1

keadaan20 1 1 1 1

keadaan21 1 1 1

keadaan22 1 1 1

Pekerjaan3

Pekerjaan4

sifat5

sifat6

sifat7

sifat8 1

komunikasi6

komunikasi7

komunikasi8

komunikasi9 1

komunikasi10 1 1 1 1

urutan giliran8 1 1

urutan giliran9 1

urutan giliran10 1 1

urutan giliran11 1

urutan giliran12 1

urutan giliran13 1 1

urutan giliran14 1

urutan tindakan8

urutan tindakan9

urutan tindakan10 1 1

urutan tindakan11

urutan tindakan12

urutan tindakan13 1 1

(6)

Tahap 3 K = 4 K = 5 K =

6 K = 7

keadaan23 1

keadaan24 1

keadaan25 1 1 1

keadaan26

keadaan27 1

keadaan28 1

keadaan29

keadaan30 1 1 1 1

keadaan31

keadaan32 1 1 1

keadaan33 1

Pekerjaan5 1

Pekerjaan6 sifat9 sifat10 sifat11 sifat12 komunikasi11 komunikasi12 komunikasi13 komunikasi14 komunikasi15

urutan giliran15 1 1 1

urutan giliran16 1 1 1 1

urutan giliran17 1 1 1 1

urutan giliran18 1 1 1

urutan giliran19 1 1 1

urutan giliran20 1 1 1

urutan giliran21 1 1

urutan giliran22 1 1 1

urutan tindakan15

urutan tindakan16 1

urutan tindakan17

urutan tindakan18

urutan tindakan19

Identifikasi makna kata sabar dalam karya sastra Menggunakan K-Nearest Neighbor (KNN).

IDENTIFIKASI MAKNA KATA SABAR

DALAM KARYA SASTRA MENGGUNAKAN

K-NEAREST NEIGHBOR (KNN)

Skripsi

Diajukan Untuk Memenuhi Salah Satu Syarat

Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh:

FX. Dwi Kurniawan

125314071

THESIS

Presented as Partial Fulfillment of The Requirements

To Obtain the Computer Bachelor Degree

In Informatics Engineering

By:

FX. Dwi Kurniawan

125314071

DAFTAR ISI

DAFTAR GAMBAR

DAFTAR TABEL

DAFTAR LIST CODE

PENDAHULUAN

BAB II

LANDASAN TEORI

BAB III

METODOLOGI PENELITIAN

Input data

Preprocessing

Klasifikasi KNN

Hasil

BAB IV

IMPLEMENTASI

BAB V

HASIL DAN PEMBAHASAN

BAB VI

PENUTUP

DAFTAR PUSTAKA

LAMPIRAN 6

Hasil Pengurutan Vektor

Hasil Label Mayoritas

LAMPIRAN 8

Hasil Cross Validation 3 Fold

Parts

Dokumen yang terkait

Prediksi Inflasi di Indonesia Menggunakan Algoritma K- Nearest Neighbor (KNN)

Identifikasi makna kata “SABAR” dalam karya sastra menggunakan Support Vector Machine (SVM) Kernel Polinomial.

Identifikasi makna kata sabar dalam karya sastra Menggunakan K Nearest Neighbor (KNN)

Identifikasi makna kata “SABAR” dalam karya sastra menggunakan Support Vector Machine (SVM) Kernel Polinomial

Prediksi Inflasi di Indonesia Menggunakan Algoritma K- Nearest Neighbor (KNN)

Prediksi Inflasi di Indonesia Menggunakan Algoritma K- Nearest Neighbor (KNN)

Prediksi Inflasi di Indonesia Menggunakan Algoritma K- Nearest Neighbor (KNN)

LANDASAN TEORI KNN (K-Nearest Neighbor)

Klasifikasi Dokumen Menggunakan Metode k-Nearest Neighbor (kNN) dengan Information Gain Document Classification using k-Nearest Neighbor (kNN) Method with Information Gain

Identifikasi Penyakit Pada Kambing Menggunakan Metode Fuzzy K- Nearest Neighbor (F-KNN )

Dokumen yang Anda mencari sudah siap untuk unduhkan