Identifikasi makna kata Sabar dalam artikel berbahasa Indonesia dengan algoritma K-Means Clustering.

(1)

Kesabaran merupakan nilai hidup yang dijunjung tinggi bangsa Indonesia.Menurut Subandi (2001), kesabaran merupakan ajaran yang dijunjung oleh kelima agama yang besar di Indonesia (Islam, Kristen, Katholik, Hindu, dan Budha). Lebih lanjut disebutkan oleh Subandi bahwa dalam Al Qur’an terdapat 44 ayat yang mengunakan kata sabar dan 14 ayat yang menggunakan kata kesabaran. Penelusuran dalam Alkitab (Bible) Bahasa Indonesia menunjukan 70 ayat yang menggunakan kata sabar, kesabaran, dan kata lain dengan tema sabar. Subandi (2001) juga menyebutkan bahwa kesabaran merupakan bentuk pengendalian diri yang sangat penting dalam agama Bidha dan agama Hindu.

Penelitian untuk mengidentifikasi makna kata sabar telah dilakukan oleh Dr. Benedictus Bherman Dwijatmoko, M.A. yang menghasilkan klasifikasi atau pengelompokan makna kata sabar kedalam 6 kategori atau kelompok, yaitu giliran, kondisi, komunikasi, sifat, pekerjaan, dan urutan tindakan.

Dalam skripsi ini identifikasi makna kata sabar dilakukan dengan menggunkan algoritma K-Means Clustering, yang hasilnya dibandingkan dengan hasil penelitian terdahulu oleh ahli untuk mendapatkan akurasi dari algoritma K-Means Clustering dalam mengkelompokan makna kata sabar. Dalam pengujian sistem menggunakan K-Means mendapat hasil paling tinggi yaitu 98.14814815%, dengan data yang digunakan sebanyak 108.


(2)

ABSTRACT

Patience is a ‘value of life’ which is upheld by Indonesian. According to Subandi (2011), patience is a teachings upheld by five major religions in Indonesia (Moeslem, Christianity, Catholic, Hinduism, and Buddhism). Furthermore, Subandi said there is 44 verses in Al-Quran using the word patience and 14 verses using the word patirnce. In the holy bible, there is 70 verses using the word patience, patient, etc. Subandi also said that patience is an important ‘self -control’ in hinduism and buddhism.

A research tu find the true meaning of patience has been done by Dr. Benedictus Bherman Dwijatmoko, M.A resulting in patience classification in 6 categories, they are turn (giliran), situation (keadaan), communication (komunikasi), character (sifat), working (pekerjaan), and action sequence (urutan tindakan).

In this thesis, identification of true meaning of patience is done by K-Means Clustering algorithm, the results are compared to the old results done by expert to find an accurate result of K-Means Clustering algorithm. In testing the system using the K-Means gets highest result that 98.14814815%, with data being used as much as 108.


(3)

i

IDENTIFIKASI MAKNA KATA SABAR DALAM ARTIKEL BERBAHASA INDONESIA DENGAN ALGORITMA K-MEANS

CLUSTERING SKRIPSI

Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer

Program Studi Teknik Informatika

Oleh : Anjar Nugraha Jati

125314062

PROGRAM STUDI TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI

UNIVERSITAS SANATA DHARMA YOGYAKARTA


(4)

ii

THE MEANING OF THE “SABAR” (PATIENCE) WORDS

IDENTIFICATION IN INDONESIA TEXT ARTICLE USING K-MEANS CLUSTERING ALGORITHM

A Thesis Presented as Partial Fulfillment of the Requirements To Obtain the Sarjana Komputer Degree

in Informatics Engineering Study Program

By :

Anjar Nugraha Jati 125314062

INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING

FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY

YOGYAKARTA 2017


(5)

iii HALAMAN PERSETUJUAN


(6)

iv HALAMAN PENGESAHAN SKRIPSI


(7)

v PERNYATAAN KEASLIAN KARYA


(8)

vi

HALAMAN PERSEMBAHAN

Karya ini penulis persembahkan kepada : Tuhan Yesus dan Bunda Maria,

Keluarga, Sahabat,

Teman-teman Teknik Informatika,


(9)

vii ABSTRAK

Kesabaran merupakan nilai hidup yang dijunjung tinggi bangsa Indonesia.Menurut Subandi (2001), kesabaran merupakan ajaran yang dijunjung oleh kelima agama yang besar di Indonesia (Islam, Kristen, Katholik, Hindu, dan Budha). Lebih lanjut disebutkan oleh Subandi bahwa dalam Al Qur‟an terdapat 44 ayat yang mengunakan kata sabar dan 14 ayat yang menggunakan kata kesabaran. Penelusuran dalam Alkitab (Bible) Bahasa Indonesia menunjukan 70 ayat yang menggunakan kata sabar, kesabaran, dan kata lain dengan tema sabar. Subandi (2001) juga menyebutkan bahwa kesabaran merupakan bentuk pengendalian diri yang sangat penting dalam agama Bidha dan agama Hindu.

Penelitian untuk mengidentifikasi makna kata sabar telah dilakukan oleh Dr. Benedictus Bherman Dwijatmoko, M.A. yang menghasilkan klasifikasi atau pengelompokan makna kata sabar kedalam 6 kategori atau kelompok, yaitu giliran, kondisi, komunikasi, sifat, pekerjaan, dan urutan tindakan.

Dalam skripsi ini identifikasi makna kata sabar dilakukan dengan menggunkan algoritma K-Means Clustering, yang hasilnya dibandingkan dengan hasil penelitian terdahulu oleh ahli untuk mendapatkan akurasi dari algoritma K-Means Clustering dalam mengkelompokan makna kata sabar. Dalam pengujian sistem menggunakan K-Means mendapat hasil paling tinggi yaitu 98.14814815%, dengan data yang digunakan sebanyak 108.


(10)

viii ABSTRACT

Patience is a „value of life‟ which is upheld by Indonesian. According to Subandi (2011), patience is a teachings upheld by five major religions in Indonesia (Moeslem, Christianity, Catholic, Hinduism, and Buddhism). Furthermore, Subandi said there is 44 verses in Al-Quran using the word patience and 14 verses using the word patirnce. In the holy bible, there is 70 verses using the word patience, patient, etc. Subandi also said that patience is an important „self-control‟ in hinduism and buddhism.

A research tu find the true meaning of patience has been done by Dr. Benedictus Bherman Dwijatmoko, M.A resulting in patience classification in 6 categories, they are turn (giliran), situation (keadaan), communication (komunikasi), character (sifat), working (pekerjaan), and action sequence (urutan tindakan).

In this thesis, identification of true meaning of patience is done by K-Means Clustering algorithm, the results are compared to the old results done by expert to find an accurate result of K-Means Clustering algorithm. In testing the system using the K-Means gets highest result that 98.14814815%, with data being used as much as 108.


(11)

ix

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS


(12)

x

KATA PENGANTAR

Puji syukur kepada Tuhan Yesus Kristus, atas segala berkat, bimbingan dan karunia sehingga penulis dapat menyelesaikan Tugas Akhir sebagai salah satu syarat akademik jurusan teknik informatika Universitas Sanata Dharma Yogyakarta.

Penelitian ini dapat berjalan baik dari awal hingga akhir karena adanya bimbingan, doa, ukungan semangat dan motivasi yang diberikan oleh banyak pihak. Untuk itu, penulis ingin mengucapkan terimakasih kepada :

1. Tuhan Yesus Kristus yang telah memberkati, membimbing dan memberikan kekuatan di kehidupan ini setiap hari dalam suka maupun duka.

2. Bunda Maria yang selalu mendengarkan keluh kesah penulis dalam menjalani kehidupan.

3. Keluarga, Bapak Heri Santosa Francisco, Ibu Bibiana Titis Budi Asri, Agustina Ratna Utami, dan Tulus Sigit Nugraha yang telah mendoakan, mendukung dan memberi semangat kepada penulis selama proses perkuliahan dan penyelesaian skripsi.

4. Sri Hartati Wijono, S.Si., M.Kom. selaku dosen pembimbing tugas akhir, atas bimbingan, waktu, dan saran yang telah diberikan kepada penulis. 5. Dr.Benedictus Bherman Dwijatmoko, M.A. selaku dosen pembimbing

tugas akhir, atas bimbingan, waktu, dan saran yang telah diberikan kepada penulis.

6. Dr.C.Kuntoro Adi, S.J., M.A., M.Sc. selaku dosen pembimbing akademik, atas bimbingan, motivasi, kritik, dan saran yang telah diberikan kepada penulis.

7. Puspaningtyas Sanjoyo Adi, S.T., M.T. selaku dosen penguji, atas bimbingan, kritik, dan saran yang telah diberikan kepada penulis.


(13)

xi

8. Albertus Agung Hadhiatma, S.T., M.T. selaku dosen penguji, atas bimbingan, kritik, dan saran yang telah diberikan kepada penulis.

9. Dr. Anastasia Rita Widiarti selaku ketua program studi Teknik Informatika, atas bimbingan, kritik, dan saran yang telah diberikan kepada penulis.

10.Sudi Mungkasi, Ph.D. selaku dekan Fakultas Sains dan Teknologi, atas bimbingan, kritik dan saran yang telah diberikan kepada penulis.

11.Teman-teman “Ikatan Teknik Informatika Liberal” yang selalu memberi semangat dan hiburan selama proses kuliah di Universitas Sanata Dharma. 12.Teman-teman UKF “FST Basketball” yang selalu memberi semangat dan

hiburan selama proses kuliah di Universitas Sanata Dharma.

13.Cindya, Eric, Giri, Jona, Wiga, Gala, Tito, Dona, Cici, Jono, Dingo, Loona, Choco, Misti atas doa, dukungan, bantuan dan hiburan selama penulis berproses dalam penyelesaian tugas akhir.

14.OMK St Alloysius Gonzaga Ngijoreja, yang telah menjadi sahabat dan memberikan pelajaran berharga dalam memahami hidup dan memuji memuliakan Tuhan Yesus Kristus.

15.Semua pihak yang tidak dapat disebutkan satu per satu yang telah membantu penulis dalam pengerjaan tugas akhir ini.

Penulis menyadari masih banyak kekurangan yang terdapat dalam laporan tugas akhir ini. Saran dan kritik sangat diharapkan untuk hasil yang lebih baik dimasa mendatang. Semoga penulisan skripsi ini berguna untuk semua pihak terutama mahasiswa teknik informatika.


(14)

xii DAFTAR ISI

HALAMAN PERSETUJUAN ... iii

HALAMAN PENGESAHAN SKRIPSI ... iv

PERNYATAAN KEASLIAN KARYA ... v

HALAMAN PERSEMBAHAN ... vi

ABSTRAK ... vii

ABSTRACT ...viii

LEMBAR PERNYATAAN PERSETUJUAN PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN AKADEMIS ... ix

KATA PENGANTAR ... x

DAFTAR ISI ...xii

1.1 LATAR BELAKANG ... 1

1.2 RUMUSAN MASALAH ... 2

1.3 TUJUAN ... 2

1.4 BATASAN MASALAH ... 3

1.5 METODOLOGI PENELITIAN ... 3

1.6 SISTEMATIKA PENULISAN ... 3

BAB II ... 5

2.1. Ideologi Kesabaran Dalam Karya Sastra ... 5

2.2.Text Mining ... 10

2.3.Text Preprocessing ... 11

2.3.1.Tokenizing ... 11

2.3.2.Stopword Removal/Filtering ... 12

2.3.3.Stemming ... 12

2.3.4.Pembobotan tf-idf ... 16

2.4.Clustering ... 17

2.5.K-Means ... 18

2.6.Variance Initialitation ... 21

2.7.Euclidian Distance ... 22

BAB III ... 23

3.1.Data ... 23


(15)

xiii

3.3.Preprocessing ... 29

3.3.1.Tokenizing ... 29

3.3.2.Stopword ... 33

3.3.3.Stemming ... 36

3.3.4.Pembobotan ... 39

3.5.K-means ... 48

3.4.Spesifikasi Perangkat Keras dan Perangkat Lunak ... 49

BAB IV ... 50

4.1.Implemenasi ... 50

4.1.1.Pengolahan Data ... 50

4.1.2.Preprocessing ... 54

BAB V ... 63

5.1.Kesimpulan ... 63

5.2.Saran ... 63


(16)

xiv

DAFTAR GAMBAR

Gambar 2. 1 Gambar Flowchart Arus Proses K-Means Clustering ... 20

Gambar 3. 1 Gambar proses sistem ... 26

Gambar 4. 1 Gambar Folder Kelompok Dokumen ... 50

Gambar 4. 2 Gambar Data Dokumen Bermakna Keadaan ... 51

Gambar 4. 3 Gambar Data Dokumen Bermakna Komunikasi ... 52

Gambar 4. 4 Gambar Data Dokumen Bermakna Pekerjaan ... 52

Gambar 4. 5 Gambar Data Dokumen Bermakna Sifat ... 52

Gambar 4. 6 Gambar Data Dokumen Bermakna Urutan Tindakan ... 53

Gambar 4. 7 Gambar Data Dokumen Bermakna Urutan Giliran ... 54

Gambar 4. 8 Gambar Hasil Cluster Sistem 1 ... 59


(17)

xv

DAFTAR TABEL

Tabel 2. 1 Tabel Imbuhan Awalan dan Akhiran ... 15

Tabel 2. 2 Tabel Cara menentukan tipe awalan untuk kata yang diawali dengan "te" ... 15

Tabel 2. 3 Tabel Jenis awalan berdasarkan tipe awalanya ... 16

Tabel 3. 1 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Keadaan ... 23

Tabel 3. 2 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Komunikasi ... 24

Tabel 3. 3 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Pekerjaan ... 24

Tabel 3. 4 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Sifat ... 25

Tabel 3. 5 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Urutan Tindakan ... 25

Tabel 3. 6 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Urutan Giliran ... 26

Tabel 3. 7 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna keadaan ... 30

Tabel 3. 8 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna komunikasi ... 30

Tabel 3. 9 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna pekerjaan ... 31

Tabel 3. 10 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna sifat ... 31

Tabel 3. 11 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna urutan tindakan... 32

Tabel 3. 12 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna urutan giliran ... 32

Tabel 3. 13 Tabel Document Frequency ... 43

Tabel 3. 14 Tabel idf ... 44

Tabel 3. 15 Tabel W dengan makna Keasaan ... 45

Tabel 3. 16 Tabel W dengan makna Komunikasi ... 45

Tabel 3. 17 Tabel W dengan makna pekerjaan ... 46

Tabel 3. 18 Tabel W dengan Makna Sifat... 46

Tabel 3. 19 Tabel W dengan makna urutan tindakan ... 47


(18)

1 BAB I PENDAHULUAN

1.1 LATAR BELAKANG

Informasi merupakan hal yang penting bagi setiap orang.Informasi dibutuhkan sebagai penunjang untuk pengetahuan sampai pengambilan keputusan. Kemajuan teknologi, sangat berpengaruh dengan pertambahan informasi yang tersedia dan kecepatan pemerolehan informasi.Salah satu bentuk informasi adalah informasi yang berbentuk teks. Dalam skripsi ini akan dibahas bagaimana mengolah suatu dokumen, untuk memperoleh informasi termasuk kedalam kategori apakah dokumen tersebut. Dokumen yang digunakan adalah dokumen suatu karya sastra.

Karya sastra merupakan suatu tulisan atau karya tulis yang mengandung nilai-nilai tertentu.Karya sastra yang berupa tulisan tentunya terdiri dari sekumpulan kata-kata. Dan dalam sebuah karya satra ada banyak kata yang selalu diulang. Dalam suatu kalimat dalam karya sastra terdapat kata yang memiliki makna yang berbeda-beda meskipun kata tersebut sama. Untuk itu kata-kata tersebut biasanya dikelompokan berdasarkan maknanya.Kata dalam suatu karya perlu dikelompokan sesuai dengan makna masing-masing kata yang terdapat dalam kalimat.

Saat ini pengelompokan kata masih dikelompokan secara manual dengan membaca suatu tulisan per kalimat satu per satu kata yang kemudian akan dikelompokan sesuai maknanya. Penghitungan dan pengelompokan secara manual tersebut memerlukan waktu yang sangat lama dan butuh ketelitian.


(19)

Dari masalah tersebut akan dibangun suatu sistem yang mampu menghitung dan mengelompokan kata sesuai maknanya. Data kata tertentu dalam sebuah artikel atau sejenisnya diolah terlebih dahulu. Pengolahan kata atau pengolahan teks disebut juga text mining. Setelah proses pengolahan kata selanjutnya data kata tersebut dikelompokan atau clustering menggunakan algoritma k-means.

Maka masalah yang pokok yang ingin dijawab pada penelitian ini adalah seberpa tepat pengelompokan kata berdasarkan makna dengan menggunakan metode K-Means Clustering. Metode K-Means Clustering ini memiliki kelebihan yaitu tepat dalam mengelompokkan kata dibandingkan dengan pengelompokan secara manual. Pemilihan metode K-means Clustering diharapkan tepat dalam mengelompokan kata sesuai maknanya, karena sesuai dari keunggulan yang dimiliki k-means dibandingkan dengan metode lain (Baswade, 2013) yaitu:

1. Relatif efisien dengan O (knt) dimana k-jumlah cluster, n-jumlah objek, t-jumlah iterasi.

2. Mudah untuk dijalankan.

3. Waktu yang dibutuhkan untuk menjalakan pembelajaran ini relatif cepat. 4. Mudah untuk diadaptasi.

1.2 RUMUSAN MASALAH

Berdasarkan latar belakang yang ada dapat dirumuskan masalah yaitu : Sejauh mana ketepatan metode K-Means Clustering dalam pengelompokan paragraf yang mengandung kata sabar dalam suatu karya sastra sesuai dengan maknanya.

1.3 TUJUAN

1. Mengimplementasikan metode K-Means Clustering dalam

mengidentifikasi makna kata sabar pada karya sastra.

2. Mengetahui sejauh mana metode K-Means Clustering dapat mengelompokan kata pada karya sastra.


(20)

1.4 BATASAN MASALAH

1. Pengelompokan menggunakan informasi teks dengan ekstensi .txt

2. Memanfaatkan metode K-Means Clustering sebagai acuan kinerja sistem. 3. Pengelompokan ini dibagi menjadi 6 yaitu: sifat, komunikasi, keadaan,

urutan tindakan, pekerjaan, urutan giliran.

1.5 METODOLOGI PENELITIAN

Metodologi yang digunakan dalam penelitian ini adalah studi kasus dengan langkah-langkah sebagai berikut:

1. Studi Pustaka

Memberikan pengetahuan tentang hal-hal berkaitan dengan pengelompokan dokumen.Mempelajari dan memahami buku referensi yang berkaitan tentang konsep algoritma K-Means.Clustering

2. Pengambilan data

Data yang digunakan dari kutipan paragraph dalam karya sastra yang mengandung kata sabar.

3. Perancangan Sistem

Pada tahap ini dilakukan perancangan sistem yang akan dibuat. 4. Implementasi

Pada tahap ini dilakukan pembuatan aplikasi yang digunakan untuk mempermudah pengelompokan kata berdasarkan maknanyanya.

5. Pengujian dan Analisa Hasil

Tujuan pada tahap ini adalah untuk mengetahui tingkat keakuratan algoritma K-Means dalam mengelompokan kata sabar sesaui maknanya dan menganalisa hasil.

1.6 SISTEMATIKA PENULISAN

Sistem penulisan yang dipergunakan dalam penyusunan tugas akhir ini tersusun dari beberapa bab sehingga mempermudah dan memperjelas penulisan dan pembahasan.Sistematis dibagi menjadi 5 bab, adapun ringkasannya sebagai berikut:


(21)

BAB I PENDAHULUAN

Menjelaskan tentang latar belakang penulisan, perumusan masalah, tujuan penelitian, pembatasan masalah, metode penulisan, dan sistematika penulisan.

BAB II LANDASAN TEORI

Membahas tentang landasan teori yang dipergunakan dalam penulisan tugas akhir ini.

BAB IIIMETODOLOGI PENELITIAN

Menguraikan dan membahas gambaran dan perancangan tentang sistem yang dibuat, yang meliputi analisa sistem dan perancangan sistem. BAB IV IMPLEMENTASI DAN ANALISA HASIL

Bab ini berisi implementasi dari perancangan yang telah dibuat sebelumnya serta analisa dari hasil program yang telah dibuat.

BAB V PENUTUP

Bab ini berisi kesimpulan dari penelitian dan saran-saran untuk pengembangan penelitian lebih lanjut.


(22)

5 BAB II

LANDASAN TEORI

Bab ini membahas tentang teori-teori dan uraian yang berkaitan dengan identifikasi karya sastra menggunakan K-Means Clustering. Berikut adalah teori-teori yang akan dibahas:

2.1. Ideologi Kesabaran Dalam Karya Sastra

Kesabaran merupakan ideologi yang penting dalam budaya Indonesia.Dalam karya sastra Indonesia, ideologi kesabaran dapat muncul secara tersurat dengan penggunaan adjektiva sabar, nomina kesabaran dan penyabar, dan verba bersabar serta menyabarkan. Dari penelitian korpus yang dilakukan dengan memakai data yang tersedia dalam www.corci.org, ditemukan 6 (enam) konsep kesabaran, yaitu penerimaan kondisi yang harus dihadapi, penantian giliran, penerimaan urutan kegiatan, kesedian menunggu dalam pembicaraan, sifat sabar, dan ketekunan dalam melakukan pekerjaan. Keenam konsep kesabaran itu diperlukan untuk menjaga keseimbangan diri, menjaga hubungan yang harmonis, dan mencapai hasil yang ingin dicapai.

Kalimat dengan tema sabar menunjukan 6 (enam) makna.Keenam makna itu adalah penerimaan keadaan, penantian giliran, penerimaan urutan tindakan, kesediaan menunggu dalam pembicaraan, sifat, dan ketekunan dalam pekerjaan.

Masing-masing makna kesabaran muncul pada konteks yang berbeda-beda, yaitu:

a. Penerimaan Keadaan

Arti penerimaan keadaan muncul atas kesadaran pelaku atau pembicara pada keadaan lawan bicara atau orang lain yang tidak baik atau


(23)

jelek. Pelaku atau pembicara karena keadaan itu tidak dapat diubah lagi dan harus diterima saja atau ditolak.

Contoh:

1. Pun ketika ingin membentuk sebuah kalimat, bingung aku menentukan tense-nya. Bahasa Inggrisku tak maju-maju” “Begini,” kata Lintang sabar menghadapi ketololanku.ketika itu ia sedang memaku sandal cunghai-nya yang menganga seperti buaya lapar. (SJ-6015).

2. “… Kamu harus mau menuntun gua, Roy!” Dengan sabar dan telaten, Roy menuntun sobatnya. Kadangkala kalau Toni kecapekan dan merasa sakit pada lututnya akibat bergesekan dengan kaki palsunya. Roy tidak bosan-bosan memompa semangatnya. (SJ-6057).

Pada contoh data diatas penerimaan keadaan dilakukan oleh Lintang dan Roy mempunyai latar belakang yang sama. Pembicara dan Lintang pada data (1) Toni dan Roy merupakan sahabat.Sebagai sahabat mereka menerima keadaan sahabat mereka, dan sabar menghadapi keadaan yang tidak mungkin diubah pada sahabat mereka.

b. Penantian Giliran

Kesabaran juga muncul pada penantian dari tindakan orang lain. Pelaku atau pembicara perlu sabar untuk menunggu orang lain selesai melakukan tindakannya atau menunggu gilirannya.

Contoh:

1. Penumpang berebut turun. Wajah gadis itu Nampak sabar sekali menunggu luangnya jalan, Joki memberinya kesempatan untuk lewat. (SJ-5997).

2. Rupanya laki-laki itu sudah menggenggam satu-satunya payung di tangannya. Ia tak sabar menunggu istrinya bepikir.”Jangan, Pak. Aku saja.” (SJ-6023).

Alasan munculnya perilaku kesabaran pada data (1) dan (2) berbeda. Pada data (1) wanita itu sabar akan keadaan yang ramai. Ia tidak


(24)

mungkin langsung berebut turun. Pada data (2) suami itu sudah tidak sabar menunggu istrinya berpikir. Ia langsung mengambil payung, dan siap pergi.Dengan ketidak-sabaran itu.Ia menunjukan kekuasaannya atas istrinya. Kekuasaan itu juga diakui oleh istrinya,”Jangan Pak. Aku saja (yang pergi).”

c. Penerimaan Urutan Tindakan

Penerimaan urutan tindakan juga merupakan kesabaran.Pelaku atau pembicara perlu melakukan tindakan sesuai dengan urutannya.Bila seseorang melakukan tindakan yang tidak sesuai dengan urut-urutannya menunjukan ketidak-sabaran orang itu.

Contoh :

1. Kami, delapan ekor sapi, yang akan tampil pada plot kedua, gemetar menunggu aba-aba dari Mahar untuk menerjang arena. Kami tak sabar dan rasanya kaki sudah gatal ingin mendemonstrasikan kehebatan mamalia menari. Kami adalah remaja-remaja kelenihan energy dan lapar akan perhatian. (SJ-6011)

2. Tak satu baju pun yang tertinggal di almari. Seolah-olah Haji Sudung akan kembali lagi ke rumah itu. Malam itu, sambil mendekap buntalan tasnya. Haji Sudung tak sabar untuk segera tertidur. Ia ingin berlari memburu pagi. (SJ-6040)

Karapan atau pacuan kuda mempunyai urut-urutan sendiri.Peserta karapan harus mengikuti urut-urutan yang ditentukan sebelum mereka akhirnya dapat berpacu di arena.Sapi-sapi pada data (1) menunjukkan ketidak-sabarannya untuk mengikuti urutan itu.Demikian juga Haji Sulung. Ia harus mengemasi barang-barangnya sebelum ia tidur dan kemudian pergi pada keesokan harinya. Ia ingin segera tidur dan pergi keesokan harinya.

Sapi-sapi pada data (1) dan Haji Sulung pada data (2) mempunyai persamaan sifat.Sapi-sapi dan Haji Sulung menunjukkan kekuatan fisik


(25)

yang besar. Sapi-sapi itu merupakan "remaja yang kelebihan energi," dan Haji Sulung "ingin berlari memburu pagi." Kiranya kekuatan fisik dapat merupakan sebab ketidak-sabaran.

d. Kesediaan Menunggu dalam Pembicaraan

Kata sabar juga mempunyai arti kesediaan menunggu dalam pembicaraan. Peserta pembicaraan perlu menunggu sampai orang yang berbicara selesai berbicara sebelum ia memulai bicara. Menyela pembicaraan merupakan perilaku tidak sabar.

Contoh:

1. Cun An tercenung sebentar, kelihatannya menyerap omongan penyamun ini untuk disari-sarikan, tapi setelah itu dengan tak sabar berkata,"Sudah saya bilang jangan bertele-tele. Katakan saja tawaranmu itu." (SJ-6066)

2. Mamak berhenti sejenak. Kalan semakin tidak sabar. Sebatang rokok keretek yang ia selai tak cukup mampu untuk menghilangkan gundahnya. ”Maksud Mamak?

Cun An menunjukkan ketidak-sabarannya dengan memotong pembicaraan penyamun itu, dan Kalan dengan memotong pembicaraan Mamak.Latar belakang ketidak-sabaran Cun An dan Kalan berbeda. Kalimat “Sudah saya bilang jangan bertele-tele. Katakan saja tawaran itu” menunjukkan bahwa Cun An mempunyai kekuatan yang lebih besar daripada penyamun itu. Cun An tidak takut pada penyamun itu. Berbeda dengan Cun An, Kalan merasa tidak nyaman untuk melakukan tindakan yang dapat diartikan tidak sabar.Ia merasa terpaksa harus memotong pembicaraan mamaknya, orang yang harus dihormatinya.Sebatang rokok keretek yang ia selai tak cukup mampu untuk menghilangkan gundahnya.

e. Sifat Sabar

Sifat sabar merupakan sifat baik yang dipunyai oleh orang yang diidamkan. Sifat itu sejajar dengan sifat-sifat baik yang lain seperti bijaksana, baik, tabah, dan setia.


(26)

1. Perempuan memang bukan persoalan baginya. Hanya masalahnya sampai sekarang dia baru bisa memahami seorang perempuan saja, mamanya, wanita yang sabar, setia, bijaksana, dan penuh kasih sayang.

2. ”Kata orangtua saya, sebagai istri saya mesti menghormati suami, saya tidak boleh membantah kata suami. Hanya orang yang baik dan sabar yang akan bisa masuk surga.”

Data (1) membicarakan mama pelaku yang mempunyai sifat sabar, dan data (2) menunjukkan pembicara sendiri yang mempunyai sifat sabar.Sifat sabar pada data (1) disertai dengan sifat yang baik lainnya yaitu setia, bijaksana, dan penuh kasih sayang, dan pada data (2) sifat itu disertai dengan sifat baik.

Pengakuan pelaku bahwa ibu pelaku itu mempunyai sifat sabar yang belum ia jumpai pada wanita lain pada data (1) dan pengakuan pembicara bahwa sifat sabarnya ia kembangkan karena kata orangtuanya menunjukkan peran orang tua dalam penanaman sifat sabar. Mereka melihat sosok orang tua sebagai orang yang dapat mereka tauladani dalam kesabaran.

Akan tetapi perilaku sabar pada data (2) menunjukkan jalan pemikiran yang berbeda.Kesabaran pada wanita itu merupakan kesabaran yang dipaksakan.Seorang istri tidak boleh membantah kata suaminya apapun yang dikatakan suaminya. Bila ia melanggar aturan itu, ia diancam untuk tidak dapat masuk surga.

f. Ketekunan dalam Pekerjaan

Arti kesabaran yang terakhir adalah ketekunan dalam pekerjaan.Orang yang sabar adalah orang yang dapat menghadapi situasi yang sulit untuk dihadapi atau melakukan pekerjaannya dengan tekun.Ia tidak mudah menyerah menghadapi keadaan yang sulit dan terus tekun untuk mencapai tujuannya.


(27)

Contoh:

1. "Bagaimana aku bisa sabar, kalau harus membuang tenaga, waktu, dan pikiran cuma untuk beberapa ratus Indian rupee!"

2. Uang itu ditolak Emak. Tetapi, setelah dibujuk berulang-ulang oleh Si Pelukis dengan sabar dan manis, akhirnya uang yang cukup banyak itu diterima Emak.

Pembicara pada data (1) tidak sabar atau tabah menghadapi keadaan yang sulit.Ia tidak mau membuang tenaga, waktu, dan pikirannya karena uang yang diterimanya sangat sedikitnya.Sebaliknya, Si Pelukis dengan gigih atau tekun terus membujuk ibu pembicara sehingga wanita itu mau menerima uang yang ingin diberikannya.

Latar belakangnya munculnya kesabaran atau ketidak-sabaran pada (1) dan (2) berbeda. Pembicara pada (1) tidak sabar atas perilaku pemilik pekerjaan atau orang yang memberinya pekerjaan. Ia merasa diperlakukan tidak sebanding antara tenaga, waktu, dan pikiran yang dikeluarkannya dengan uang yang diterimanya.Pemilik uang, modal, atau pekerjaan dapat memperlakukan orang yang dipekerjakannya dengan tidak sepantasnya. Pada data (2) faktor kedudukan dan usia Emak menuntut pelukis itu untuk bertindak gigih untuk meyakinkan wanita itu agar mau menerima uang. (B.B.Dwijatmoko,2016)

2.2.Text Mining

Text mining didefinisikan sebagai proses pengetahuan intensif yang melibatkan interaksi pengguna dengan sekumpulan dokumen dari waktu ke waktu menggunakan berbagai macam analisis. Sejalan dengan data mining, text mining berusaha mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi pattern (Putri, 2013).

Text mining mencoba untuk mengekstrak informasi yang berguna dari sumber data melalui identifikasi dan eksplorasi dari satu pola menarik.Sumber data berupa sekumpulan dokumen dan pola menarik yang


(28)

tidak ditemukan dalam bentuk database record, tetapi dalam data teks yang tidak terstruktur (Sujana, 2013).

2.3.Text Preprocessing

Tahap text preprocessing merupakan tahap awal dari text mining.Text preprocessing merupakan proses menggali, mengolah dan mengatur informasi dengan cara menganalisis hubungannya dengan aturan-aturan yang ada di data tekstual semi terstruktur atau tidak terstruktur (Luhulima, Marji, dan Muflikhah, 2013).

Untuk lebih efektif dalam proses text preprocessing, dilakukan langkah transformasi data ke dalam suatu format yang memudahkan untuk kebutuhan pemakai. Proses ini disebut text preprocessing. Setelah dalam bentuk yang lebih terstruktur dengan adanya proses diatas, data dijadikan sumber data yang dapat diolah lebih lanjut. Tahapan text preprocessing, diantaranya: Tokenizing, Stopword removal, Stemming dan pembobotan.

2.3.1.Tokenizing

Tahap Tokenizing merupakan tahap permotongan atau pemenggalan kata dalam suatu dokumen menjadi potongan-potongan kata yang berdiri sendiri. Pada tahap ini juga akan menhilangkan karakter selain huruf seperti angka, tanda baca atau karakter yang melekat pada kata tersebut dan mengubah huruf ke huruf kecil (Manning, 2008).

Contoh proses Tokenizing: Kalimat asal:

Kunanti dengan penuh Kesabaran.

Hasil dari Text Preprocessing: kunanti penuh


(29)

2.3.2.Stopword Removal/Filtering

Tahap filtering adalah tahap mengambil kata-kata penting dari hasil tokenizing.Menggunakan algoritma stoplist yaitu menghilangkan kata yang kurang penting atau wordlist yaitu menyimpan kata penting. Contoh stopword yaitu: yang, juga, dari, dia, kami, kamu, aku, saya, ini, itu, atau, dan, tersebut, pada, dengan, adalah, yaitu, ke, tak, tidak, di, pada, jika, maka, ada, pun, lain, saja, hanya, namun, seperti, kemudian, dan lain-lain.

Contoh proses stopword: Hasil dari text tokenizing: kunanti penuh dengan kesabaran Hasil dari stopword: nanti penuh dengan kesabaran 2.3.3.Stemming

Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata bersama, kebersamaan, menyamai, akan distem ke root word-nya yaitu “sama”. Proses stemming pada teks ber-Bahasa Indonesia berbeda dengan stemming pada teks berbahasa Inggris. Pada teks berbahasa Inggris, proses yang diperlukan hanya proses menghilangkan sufiks. Sedangkan pada teks berbahasa Indonesia, selain sufiks, prefiks, dan konfiks juga dihilangkan.


(30)

Algoritma stemming yang digunakan dalam penelitian ini adalah Stemming Sastrawi. Sastrawi stemmer merupakan sebuah library stemmer sederhana yang didesain untuk dapat digunakan secara mudah.

Sastrawi stemmer menerapkan algoritma yang berbasis Nazief dan Adriani, kemudian ditingkatkan oleh algoritma CS (Confix Stripping), kemudian ditingkatkan lagi oleh algoritma ECS (Enhanced Confix Strippin), lalu ditingkatkan lagi oleh Modified ECS.

Dengan menggunakan algoritma-algoritma tersebut, banyak persoalan stemming berhasil diatasi:

1. Mencegah overstemming dengan kamus kata dasar.

2. Mencegah understemming dengan aturan-aturan tambahan 3. Kata bentuk jamak berhasil distem. Contoh : buku-buku

menjadi buku. (Sastrawi)

Algoritma yang dibuat oleh Bobby Nazief dan Mirna Adriani ini memiliki tahap-tahap sebagai berikut:

1.Cari kata yang akan distem dalam kamus. Jika ditemukan maka diasumsikan bahwa kata tesebut adalah root word. Maka algoritma berhenti.

2. Inflection Suffixes (“-lah”, “-kah”, “-ku”, “-mu”, atau “-nya”) dibuang. Jika berupa particles (“-lah”, “-kah”, “-tah” atau “-pun”) maka langkah ini diulangi lagi untuk menghapus Possesive Pronouns (“-ku”, “-mu”, atau “-nya”), jika ada.

3.Hapus Derivation Suffixes (“-i”, “-an” atau “-kan”). Jika kata ditemukan di kamus, maka algoritma berhenti. Jika tidak maka ke langkah 3a

a. Jika “-an” telah dihapus dan huruf terakhir dari kata tersebut adalah “-k”, maka “-k” juga ikut dihapus. Jika kata tersebut ditemukan dalam kamus maka algoritma berhenti.Jika tidak ditemukan maka lakukan langkah 3b.


(31)

b. Akhiran yang dihapus (“-i”, “-an” atau “-kan”) dikembalikan, lanjut ke langkah 4.

4.Hapus Derivation Prefix. Jika pada langkah 3 ada sufiks yang dihapus maka pergi ke langkah 4a, jika tidak pergi ke langkah 4b.

a. Periksa tabel kombinasi awalan-akhiran yang tidak diijinkan. Jika ditemukan maka algoritma berhenti, jika tidak pergi ke langkah 4b.

b. For i = 1 to 3, tentukan tipe awalan kemudian hapus awalan. Jika root word belum juga ditemukan lakukan langkah 5, jika sudah maka algoritma berhenti. Catatan: jika awalan kedua sama dengan awalan pertama algoritma berhenti.

5.Melakukan Recoding.

6.Jika semua langkah telah selesai tetapi tidak juga berhasil maka kata awal diasumsikan sebagai root word. Proses selesai.

Tipe awalan ditentukan melalui langkah-langkah berikut:

1. Jika awalannya adalah: “di-”, “ke-”, atau “se-” maka tipe awalannya secara berturut-turut adalah “di-”, “ke-”, atau “se-”.

2. Jika awalannya adalah “te-”, “me-”, “be-”, atau “pe-” maka dibutuhkan sebuah proses tambahan untuk menentukan tipe awalannya.

3. Jika dua karakter pertama bukan “di-”, “ke-”, “se-”, “te-”, “be-”, “me-”, atau “pe-” maka berhenti.

4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan “none” maka awalan dapat dilihat pada Tabel 2. Hapus awalan jika ditemukan.


(32)

Tabel 2. 1 Tabel Imbuhan Awalan dan Akhiran

Awalan Akhiran yang tidak diijinkan

be- -i

di- -an

ke- -i, -kan

me- -an

se- -i, -kan

Tabel 2. 2 Tabel Cara menentukan tipe awalan untuk kata yang diawali dengan "te"

Following Characters Tipe

Awalan

Set 1 Set 2 Set 3 Set 4

“-r-“ “-r-“ - - none

“-r-“ Vowel - - Ter-luluh

“-r-“ Not(vowel or “-r-“)

“-er-“ vowel Ter

“-r-“ Not(vowel or “-r-“)

“-er-“ Not vowel ter-

“-r-“ Not(vowel or “-r-“)

not “-er-“ - Ter

Not(vowel or “-r-“)

“-er-“ Vowel - none


(33)

or “-r-“)

Tabel 2. 3 Tabel Jenis awalan berdasarkan tipe awalanya

Tipe Awalan Awalan yang harus dihapus

di- di-

ke- ke-

se- se-

te- te-

ter- ter-

ter-luluh Ter

2.3.4.Pembobotan tf-idf

Pembobotan dilakukan untuk mendapatkan nilai dari kata (term) yang telah diekstrak.Metode pembobotan yang digunakan yaitu pembobotan tf-idf. Pada tahap ini, setiap dokumen diwujudkan sebagai sebuah vector dengan elemen sebanyak kata (term) yang didapat dari tahap ekstraksi dokumen. Vector tersebut beranggotakan bobot dari setiap term yang didapat dengan perhitungan bobot tf-idf.

Formula yang digunakan untuk menghitung bobot (w) masing-masing dokumen terhadap kata kunci adalah:

Dimana:


(34)

t = kata ke-t dari kata kunci

W = bobot dokumen ke-d terhadap kata ke-t

Setelah bobot (w) masing-masing dokumen diketahui, maka dilakukan proses sorting/pengurutan dimana semakin besar nilai w, semakin besar tingkat similaritas dokumen tersebut terhadap kata yang dicari, demikian sebaliknya.

Idf =

Dimana:

N = jumlah dokumen

dfj = jumlah dokumen j yang mengandung kata

Metode ini berguna untuk mencari representasi nilai dari tiap-tiap dokumen dari kumpulan data training. Representasi nilai akan dibentuk menjadi vector antara dokumen dengan kata (document with terms). Kesamaan antara dokumen dengan cluster ditentukan oleh sebuah prototype cluster yang disebut juga dengan cluster centroid (Putri, 2013).

2.4.Clustering

Clustering adalah pekerjaan yang memisahkan data/vector ke dalam sejumlah kelompok (cluster) menurut karakteristiknya masing-masing. Data-data yang mempunyai kemiripan karakteristik akan berkumpul dalam cluster yang sama, dan data-data dengan karakteristik berbeda akan terpisah dalam cluster yang berbeda. Tidak diperlukan label kelas untuk setiap data yang diproses dalam clustering karena nantinya label baru bisa diberikan ketika cluster sudah terbentuk. Karena tidak adanya target label kelas untuk setiap data, maka clustering sering disebut juga pembelajaran tidak terbimbing (unsupervised learning)(Eko Prasetyo, 2014).


(35)

Tujuan dari clustering adalah menemukan cluster berkualitas dalam waktu yang tepat.Cluster dalam data mining berguna untuk menemukan pola distribusi di dalam sebuah data set yang berguna untuk proses analisa data. Kesamaan obyek biasanya diperoleh dari kedekatan nilai-nilai atribut yang menjelaskan obyek-obyek data, sedangkan obyek-obyek data biasanya direpresentasikan sebagai sebuah titik dalam ruang multidimensi.

Dengan menggunakan clustering, dapat diidentifikasikan daerah yang padat, antara pola-pola distribusi secara keseluruhan dan keterkaitan yang menarik antara atribut-atribut data. Dalam data mining usaha difokuskan pada metode-metode penemuan cluster pada basis data berukuran besar secara efektif dan efisien.

2.5.K-Means

K-means merupakan algoritma pengelompokan iterative yang melakukan partisi set data ke dalam sejumlah K cluster yang sudah diterapkan. Algoritma K-Means sedehana untuk diimplementasikan dan dijalankan, relative cepat, mudah beradaptasi dan umum penggunaannya dalam praktek. Secara historis, K-Means menjadi salah satu algoritma yang paling dalam bidang data mining (Eko Prasetyo, 2014).

Algoritma K-means mencapai kondisi konvergen ketika pengalokasian kembali titik data tidak lagi berubah.Proses dari iterasi ke iterasi hingga dicapai kondisi konvergen juga dapat diamati dari nilai fungsi objektif yang didapatkan. Pada kondisi yang semakin konvergen dapat diamati bahwa nilai fungsi objektif akan semakin menurun. Pemilihan K titik data sebagai centroid awal juga mempengaruhi hasil clustering. Sifat ini menjadi karakteristik alami K-Means yang dapat mengakibatkan hasil clusteryang didapat pada percobaan berbeda mendapatkan hasil yang berbeda. Kondisi seperti ini dikenal dengan solusi yang local optima, yang artinya algoritma K-Means sangat sensitive terhadap lokasi awal centroid. Dengan kata lain, inisialisasi set representasi cluster C yang berbeda dapat


(36)

mengakibatkan hasil cluster yang berbeda, bahkan pada set data X yang sama. Innisialisai yang tidak baik akan mendapatkan hasil cluster yang tidak baik juga. Penyelesaian masalah local optima dapat diselesaikan dengan menjalankan algoritma beberapa kali dengan inisial centroid yang berbeda kemudian memilih hasil yang terbaik.

Langkah -langkah dari Algoritma K-means (Handoyo, Rumani, dan Nasution, 2014):

1. Menentukan nilai k sebagai jumlah cluster yang ingin dibentuk 2. Menentukan centroid (titik pusat cluster) awal menggunakan

variance initialitation.

3. Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi antar dua objek (Euclidean Distance).

4. Mengelompokan berdasarkan jarak minimum antara data dengan centroidnya.

5. Menentukan centroid yang baru dengan cara menghitung nilai rata-rata dari data yang ada pada centroid yang sama.

6. kemudian kembali ke langkah 3, jika posisi centroid baru dengan centroid lama, tidak sama.


(37)

Gambar 2. 1 Gambar Flowchart Arus Proses K-Means Clustering

Gambar 2.1 merupakan algoritma k-means clustering dengan menggunakan flowchart. Langkah pertama adalah menentukan banyaknya jumlah cluster K, selanjutnya menentukan titik centroid awal, menentukan titik centroid dilakukan menggunakan variance initialitation. Tahap selanjutnya menghitung jarak obyek ke pusat salah satu perhitungannya menggunakan kedekatan euclidean distance, lalu kelompokan obyek berdasarkan jarak terdekat (minimum). Pada tahap terakhir apabila posisi centroid baru dengan centroid lama tidak sama, maka terjadi pengulangan pada tahap titik pusat. Dan ketika posisi centroid baru dengan centroid lama sama, maka selesai.


(38)

2.6.Variance Initialitation

Variance initialitation adalah salah satu algoritma yang digunakan Untuk menentukan centroid awal pada proses clustering. Berikut langkah-langkah variance initialitation( Al-Daoud, 2007):

1. Hitung nilai variance data setiap dimensi (kolom data).

2. Temukan kolom dengan nilai variance terbesar, kemudian sort data. 3. Bagi keseluruhan data menjadi K bagian, K adalah jumalh cluster. 4. Temukan median (nilai tengah) pada setiap bagian.

5. Gunakan vector data median setiap bagian sebagai centroid awal cluster.

Variance Initialitation merupakan salah satu teknik analisis multivariate yang berfungsi untuk membedakan rerata lebih dari dua kelompok data dengan cara membandingkan variansinya. Analisis varian termasuk dalam kategori statistic parametric( Ghozali, 2009). Berikut rumus yang digunakan untuk menghitung variansi.

Pada persamaan = varian

= nilai x ke-i

= rata-rata

n = ukuran sampel

Untuk menghitung standar deviasi (simpangan baku) maka digunakan rumus standar deviasi seperti yang terdapat pada persamaan berikut.


(39)

Pada persamaan

s = Standar deviasi (simpangan baku)

= varian

2.7.Euclidian Distance

Untuk menghitung jarak antara objekdengan centroid penulis menggunakan Euclidian Distance.

; i = 1,2,3,…, = objek x ke-i

= daya y ke-i n = banyaknya objek

Kemudian untuk menghitung centroid cluster ke-i berikutnya

digunakan rumus sebagai berikut:

= jumlah dokumen dalam cluster k = dokumen dalam cluster k


(40)

23 BAB III

METODOLOGI PENELITIAN 3.1.Data

Data yang akan digunakan diambil dari web corci.org yang berjumlah 108 karya satra.Dalam setiap dokumen mengandung kata sabar yang akan dikelompokan sesaui dengan maknanya. Data kemudian diubah ke dokumen berbentuk dokumen berektensi .txt. Data yang dipilih berasal dari enam kelompok yaitu keadaan, komunikasi, pekerjaan, sifat, urutan tindakan,urutan giliran.

Berikut adalah contoh paragraph dalam suatu karya sastra yang mengandung kata sabar dengan makna keadaan.

Meski ia tahu ibunya sayang kepadanya, tetapi kalau marah tetap saja

mengerikan. Biasanya, ia suka pura-pura tertidur kalau sedang dimarahi, menutupi telinganya dengan bantal agar tak mendengar suara ibunya yang terus-menerus berbicara, dan biasanya pula sang ibu akan menunggu, sampai kapan Manisha bisa sabar untuk pura-pura tertidur, terkadang ia bisa benar-benar tertidur pada akhirnya, terkadang pula tetap tak bisa tidur, hanya bisa menunggu emosi ibunya reda, dan akhirnya, mereka akan saling menunggu, siapa yang paling sabar di antara keduanya. Sudah ratusan kali Manisha dimarahi ibunya, entah karena kesalahan fatal semacam menumpahkan gula dari stoples, atau membiarkan air keran kamar mandi terbuka yang menyebabkan airnya meluber, sampai beragam alasan yang menurutnya mengada-ada. Lama kelamaan, Manisha bisa

dikriminalisasi oleh ibunya sendiri.


(41)

Selanjutnya adalah contoh paragraph dalam suatu karya sastra yang mengandung kata sabar dengan makna komunikasi.

Ibu seperti menghindar, memalingkan muka menyembunyikan wajahnya, sambil jawabnya: “Nanti juga kalau saatnya pulang, pasti pulang.” “Apa nggak kena penyakit karena candik ala, Bu?” tanyaku tak sabar.Ibu diam saja.Memang, kadang-kadang setengahnya aku kurang percaya dengan hal-hal aneh demikian, tapi kadang kala pula hati dibuat ciut dengan kejadian seperti yang pernah kami alami tahun lalu.

Kemudian contoh paragraph karya sastra yang mengandung kata sabar dengan makna pekerjaan.

" begitu Iwin menulis. Tampaknya dia sudah tidak sabar, karena selama ini perutnya cuma diisi cairan infus dan baru-baru ini sudah diperbolehkan menyedot susu murni. "Seminggu lagi." Si suster tersenyum kecil sambil menyodorkan segelas susu murni. Iwin menyedotnya hati-hati.Roy memperhatikannya dengan teliti.Tampaknya Iwin sudah mendingan, batinnya.

Tabel 3. 2 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Komunikasi


(42)

Contoh paragraph karya sastra yang mengandung kata sabar dengan makna sifat.

Suatu malam, Ibnu Zaidun menghadiri undangan Wilada yang cukup meriah, penuh hiburan dan nyanyian. Bertambahlah perasaan cinta dalam dirinya sehingga ia ungkapkan dalam sebuah syair yang mendalam: Engkau di antara makhluk yang besok menjadi pujaanku Engkau adalah waktu yang menjadi curahanku Aku tidak mengajukan suatu keinginan diri Kecuali dengan menyebutku dengan menenteram-kanku Janjimu akan kesabaran atasmu adalah kesabaranku di tengah dahagaku pada air yang jernih Aku memiliki cita-cita, seandainya

pemfitnah itu merintangi Akan kubuktikan hasil dengan buah keberhasilan Benar, hidup bagi kedua matanya adalah firdaus yang menerangi kegelapan. Bagi kedua telinganya hidup juga ibarat langgam merdu, bagaikan burung-burung yang beterbangan dengan riang gembira dari dahan ke dahan, dan dari pohon ke pohon. Contoh paragraph karya sastra yang mengandung kata sabar dengan makna urutan tindakan.

Dalam terpaan cahaya kuning, wajah-wajah kurus semakin mempertegas

cekungan mata bagai mayat hidup. Dadaku berdebar-debar, tak sabar untuk bisa cepat-cepat bertemu ayah, yang mungkin ada di sana. Beberapa meter sebelum mencapai tempat mereka, seorang petugas mengusirku, dan menyuruhku mancing agak jauh dari situ. Kutaruh sepeda di pinggir jalan, kemudian duduk

mencangkung di atas batu padas di pinggir rawa.

Tabel 3. 4 Tabel Data Paragraf Mengandung Kata Sabar Dengan Makna Sifat


(43)

Contoh paragraph karya sastra yang mengandung kata sabar dengan makna urutan giliran.

Anak-anak kecil itu tertawa-tawa senang jika mengetahui kata-kata Indonesia yang mirip dengan bahasa daerah mereka.Semakin anak-anak kecil itu gembira, semakin tak sabar Murtini menunggu di dapur.Jangan-jangan dia tidak mencuci hari ini, keluhnya dalam hati.Bayang-bayang pohon di tanah tinggal sepanjang sepertiga panjang benda aslinya.Akhirnya anak-anak kecil itu bubar setelah Tody menyuruhnya bubaran.

3.2.Deskripsi Sistem

Secara umum, sistem yang akan dibangun dalam penelitian ini adalah sebuah sistem dengan fungsi utama untuk melakukan pengelompokan dokumen kalimat yang mengandung kata Sabar yang diambil dari website corci.org. Proses pengelompokan yang digunakan pada sistem ini adalah metode k-means clustering. Praktiknya dokumen-dokumen yang akan dikelompokan dijadikan sebagai arsip digital dengan ekstensi .txt. File text inilah yang nantinya akan diproses oleh sistem melalui proses tokenizing, stopword, stemming, indexing, pembobotan, clustering, dan evaluasi.

Gambar 3. 1 Gambar proses sistem


(44)

Pada gambar 3.1.proses clustering dimulai dari input data yang berupa kalimat-kalimat karya sastra, kemudian dilanjutkan dengan text operation, pada tahap awal dilakukan tokenizing, yaitu proses pemisahan data dan menghilangkan karakter yang bukan huruf seperti tanda baca atau angka, langkah selanjutnya adalah stopword, stopword digunakan untuk mengambil kata-kata yang dianggap penting dari tahap tokenizing, membuang kata yang kurang penting. Tahap selanjutnya adalah stemming, stemming digunakan untuk menghilangkan kata-kata yang berimbuhan, dan pembobotan untuk proses member index atau frekuensi yang terdapat pada kata hasil dari proses dari stemming.

Tahapan k-means, menentukan nilai awal centroid, setelah itu dicari kedekatan antara centroid yang telah didapat dengan data menggunakan kedekatan euclidean distance. Selanjutnya untuk output terdiri dari hasil cluster, dimana terdapat pembagian data dalam empat cluster berdasrkan centroid terdekat.

Tahap Preprocessing

Pada tahap preprocessing, sistem melakukan tahap tokenizing, stopword, dan stemming.

Langkah-langkah tokenizing:

1. Baca tiap file txt sebagai satu data dokumen.

2. Ambil tiap token pada kalimat tweet dengan menggunakan spasi sebagai pemisah antara satu token dengan token lain.

3. Simpan setiap data dokumen yang telah di token.

Langkah-langkah stemming:

1. Baca tiap token dan cocokan dengan kata pada daftar kamus stemming/kata dasar.

2. Jika token cocok dengan kata pada daftar kamus kata dasar, berarti token adalah root word.


(45)

3. Jika token tidak cocok dengan kata pada daftar kamus kata dasar, hapus akhiran dan awalan pada token.

4. Cocokan hasil langkah 3 dengan kata pada daftar kamus kata dasar, jika cocok, anggap token sebelum dikenakan langkah 3 sebagai root word.

Tahap Pembobotan

Pada tahap pembobotan ini, sistem yang akan dibangun merepresentasikan data text sebagai vector dengan nilai bobot masing-masing term. Perhitungan bobot term menggunakan metode pembobotan tf-idf.

Langkah-langkah pembobotan tf-idf: 1. hitung nilai tf pada masing-masing kata 2. hitung nilai idf pada masing-masing kata

3. hitung bobot kata dengan mengalikan nilai tf dan idf Tahap Clustering

Tahap clustering sistem akan mengelompokan data berupa paragraf yang mengandung kata sabar ke dalam 6 cluster, yaitu keadaan, komunikasi, sifat, urutan giliran, urutan tindakan, pekerjaan. Setiap data akan dikelompokan berdasarkan kedekatan dengan centroid. Kedekatan antara data dengan centroid dihitung menggunakan metode euclidian distance.

Untuk menentukan titik pusat centroid awal digunakan metode variance initialization. Penggunaan metode tersebut diharapkan mendapatkan titik centroid awal yang baik sehingga pengelompokan data-nya pun mendapatkan hasil yang baik.

Langkah-langkah variance initialitation( Al-Daoud, 2007): 1. Hitung nilai variance data setiap dimensi (kolom data).


(46)

2. Temukan kolom dengan nilai variance terbesar, kemudian sort data.

3. Bagi keseluruhan data menjadi K bagian, K adalah jumalh cluster. 4. Temukan median (nilai tengah) pada setiap bagian.

5. Gunakan vector data median setiap bagian sebagai centroid awal cluster.

Langkah-langkah K-means Clustering:

1. Menentukan nilai k sebagai jumlah cluster yang ingin dibentuk 2. Menentukan centroid (titik pusat cluster) awal menggunakan

variance initialitation.

3. Hitung jarak setiap data ke masing-masing centroid menggunakan rumus korelasi antar dua objek (euclidean distance).

4. Mengelompokan berdasarkan jarak minimum antara data dengan centroidnya.

5. Menentukan centroid yang baru dengan cara menghitung nilai rata-rata dari data yang ada pada centroid yang sama.

6. kemudian kembali ke langkah 3, jika posisi centroid baru dengan centroid lama, tidak sama.

3.3.Preprocessing

Sebelum masuk pada tahap clutering data terlebih dahulu masuk ke dalam tahap preprocessing. Tahap ini meliputi tahap tokenizing, stopword, dan stemming:

3.3.1.Tokenizing

Tahap tokenizing adalah tahap permotongan string input berdasarkan tiap kata yang menyusunnya. Pada tahap ini menhilangkan karakter selain huruf dan mengubah huruf ke huruf kecil.Berikut contoh memproses data ke tokenizing.


(47)

Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna keadaan:

Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna komunikasi:

Manisha bisa sabar untuk pura-pura tertidur, terkadang ia bisa benar-benar tertidur pada akhirnya, terkadang pula tetap tak bisa tidur

Manisha pura-pura bisa akhirnya tak Bisa tertidur benar-benar terkadang bisa Sabar terkadang tertidur pula tidur untuk ia pada tetap

Ayah akan menco a e ari ara ter aik u tuk e yelesaika asalah i i.” ”Ke apa tidak e yuruh para pre itu elepaska ayahku?” ta ya Artika tak sa ar. Mata ya sudah e gkak da ia asih terus e a gis. ”Te a g, Nak.

Ayah cara masalah menyuruh melepaskan tak bengkak

akan terbaik ini para ayahku sabar

mencoba untuk Kenapa pre Tanya Matanya

mencari menyelesaikan tidak itu Artika sudah Tabel 3. 7 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna keadaan

Tabel 3. 8 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna komunikasi


(48)

Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna pekerjaan:

Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna sifat:

Sabar Roy!" "Bagaimana aku bisa sabar, kalau harus membuang tenaga, waktu, dan pikiran cuma untuk beberapa ratus Indian rupee!" makinya. Chi Wan memang cuma menukar dua ratus dolar saja.

Sabar sabar waktu beberapa Chi Wan ratus

Roy kalau dan ratus memang dolar

Bagaimana harus pikiran Indian Cuma saja

aku membuang Cuma rupee menukar

bisa tenaga untuk makinya dua

” ”Kata ora gtua saya, se agai istri saya esti e ghor ati sua i, saya tidak boleh membantah kata suami. Hanya orang yang baik dan sabar yang akan bisa

asuk surga.” ”Kalau ora gtua ka u asih hidup, dia tidak aka rela ka u disiksa begini?!

Kata menghormati suami yang

Orangtua suami Hanya akan

Saya saya orang bisa

Sebagai tidak yang masuk

Istri boleh baik surga

Saya membantah dan

Mesti kata sabar

Tabel 3. 9 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna pekerjaan


(49)

Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna urutan tindakan:

Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna urutan giliran:

Tak la a lagi. Aku aka ke ali e ulis.” ”Aku tak sa ar u tuk e a a ya. ”Bisikku, saat dua pasa g kaki e yusuri koridor ya g su yi.

Tak kembali untuk pasang sunyi

Lama menulis membacanya kaki

Lagi Aku Bisikku menyusuri

Aku tak saat koridor

Akan sabar dua yang

Penumpang berebut turun.Wajah gadis itu nampak sabar sekali menunggu luangnya jalan.Joki memberinya kesempatan untuk lewat.

Penumpang gadis Nampak menunggu Joki untuk

Berebut Wajah sabar luangnya memberinya lewat.

Turun itu sekali jalan kesempatan

Tabel 3. 11 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna urutan tindakan

Tabel 3. 12 Tabel Tokenizing data dengan paragraph yang mengandung kata sabar dengan makna urutan giliran


(50)

3.3.2.Stopword

Tahap stopword adalah tahap mengambil kata-kata penting dari hasil tokenizing.Menggunakan algoritma stoplist yaitu menghilangkan kata yang kurang penting atau wordlist yaitu menyimpan kata penting. Contoh stopword yaitu “ada”,”kita”, dan lain-lain.

Stopword data dengan paragraph yang mengandung kata sabar dengan makna keadaan:

Stopword data dengan paragraph yang mengandung kata sabar dengan makna komunikasi:

Manisha pura-purabisaakhirnyatak bisatertidurbenar-benarterkadangbisa sabarterkadangtertidurpulatidur untuk iapadatetap

Sabar benar-benar terkadang

Pura-pura tertidur

Tertidur

Terkadang akhirnya tidur

Ayah cara masalah menyuruh melepaskan tak bengkak

akan terbaik ini para ayahku sabar

mencoba untuk Kenapa pre Tanya Matanya

mencari menyelesaikan tidak itu Artika sudah

Akan cara menyuruh matanya

Mencoba menyelesaikan melepaskan bengkak


(51)

Stopword data dengan paragraph yang mengandung kata sabar dengan makna pekerjaan:

Stopword data dengan paragraph yang mengandung kata sabar dengan makna sifat:

Sabar sabar waktu beberapa Chi Wan ratus

Roy kalau dan ratus memang dolar

Bagaimana harus pikiran Indian Cuma saja

aku membuang Cuma rupee menukar

bisa tenaga untuk makinya dua

Sabar waktu makinya

Sabar pikiran menukar

Membuang ratus ratus

Tenaga rupee dolar

Kata menghormati suami yang

Orangtua suami Hanya akan

Saya saya orang bisa

Sebagai tidak yang masuk

Istri boleh baik surga

Saya membantah dan

Mesti kata sabar

Istri sabar

Suami surga

Membantah


(52)

Stopword data dengan paragraph yang mengandung kata sabar dengan makna urutan tindakan:

Stopword data dengan paragraph yang mengandung kata sabar dengan makna urutan giliran:

Penumpang gadis Nampak menunggu Joki untuk

Berebut Wajah sabar luangnya memberinya lewat.

Turun itu sekali jalan kesempatan

Penumpang wajah menunggu memberinya

Berebut Nampak luangnya kesempatan

Turun sabar jalan lewat

Tak kembali untuk pasang sunyi

Lama menulis membacanya kaki

Lagi Aku Bisikku menyusuri

Aku tak saat koridor

Akan sabar dua yang

Menulis bisikku menyusuri

Sabar pasang koridor


(53)

3.3.3.Stemming

Pada tahap ini hasil kata yang sudah tereduksi dari proses stopword dilakukan penghapusan kata menjadi kata dasar yang kemudian akan dicocokan ke kamus untuk menghasilkan kata unik.

Stemming data dengan paragraph yang mengandung kata sabar dengan makna keadaan:

Stemming data dengan paragraph yang mengandung kata sabar dengan makna komunikasi:

Sabar benar-benar terkadang

Pura-pura tertidur

Tertidur

Terkadang akhirnya tidur

Sabar benar tidur

Pura tidur

Tidur akhir

Kadang kadang

cara menyuruh matanya

Mencoba menyelesaikan melepaskan bengkak

Mencari masalah sabar

Coba masalah mata

Cari suruh bengkak

Cara lepas


(54)

Stemming data dengan paragraph yang mengandung kata sabar dengan makna pekerjaan:

Stemming data dengan paragraph yang mengandung kata sabar dengan makna sifat:

Sabar waktu makinya

Sabar pikiran menukar

Membuang ratus ratus

Tenaga rupee dolar

Sabar waktu maki

Sabar piker tukar

Buang ratus ratus

Tenaga rupee dolar

Istri sabar

Suami surga

Membantah

suami

Istri sabar

Suami surga

Bantah


(55)

Stemming data dengan paragraph yang mengandung kata sabar dengan makna urutan tindakan:

Stemming data dengan paragraph yang mengandung kata sabar dengan makna urutan giliran:

Menulis bisikku menyusuri

Sabar pasang koridor

Membacanya kaki sunyi

Tulis bisik susur

Sabar pasang koridor

Baca kaki sunyi

Penumpang wajah menunggu memberinya

Berebut Nampak luangnya kesempatan

Turun sabar jalan lewat

Tumpang wajah tunggu beri

Rebut Nampak luang kesempatan


(56)

3.3.4.Pembobotan

Pada tahap ini setiap kata unik diberi bobot kata dengan menggunakan rumus weighing (tf.idf).

Term frequency (tf) data dengan paragraph yang mengandung kata sabar dengan makna keadaan:

Term frequency (tf) data dengan paragraph yang mengandung kata sabar dengan makna komunikasi:

Sabar benar tidur

Pura tidur

Tidur akhir

Kadang kadang

tf sabar=1

pura=1

tidur=3

kadang=2

akhir=1

Coba masalah mata

Cari suruh bengkak

Cara lepas

Selesai sabar

tf coba=1

cari=1

cara=1

selesai=1

masalah=1

suruh=1

lepas=1

sabar=1

mata=1


(57)

Term frequency (tf) data dengan paragraph yang mengandung kata sabar dengan makna pekerjaan:

Term frequency (tf) data dengan paragraph yang mengandung kata sabar dengan makna sifat:

Sabar waktu maki

Sabar pikir tukar

Buang ratus ratus

Tenaga rupee dolar

tf sabar=2

buang=1

tenaga=1

waktu=1

piker=1

ratus=2

rupee=1

maki=1

tukar=1

dolar=1

Istri sabar

Suami surga

Bantah

suami

tf istri=1

suami=2

bantah=1

sabar=1


(58)

Term frequency (tf) data dengan paragraph yang mengandung kata sabar dengan makna urutan tindakan:

Tulis bisik susur

Sabar pasang koridor

Baca kaki sunyi

tf tulis=1

sabar=1

baca=1

bisik=1

pasang=1

kaki=1

susur=1

koridor=1


(59)

Term frequency (tf) data dengan paragraph yang mengandung kata sabar dengan makna urutan giliran:

Tumpang wajah tunggu beri

Rebut Nampak luang kesempatan

Turun sabar jalan lewat

tf tumpang=1

rebut=1

turun=1

wajah=1

Nampak=1

Sabar=1

Tunggu=1

Luang=1

Jalan=1

Beri=1

Kesempatan=1


(60)

Hitung document frequency(df)

Tabel 3. 13 Tabel Document Frequency

Id Kata df

25 Nampak 1

26 pasang 1

27 Piker 1

28 Pura 1

29 ratus 2

30 Rebut 1

31 rupee 1

32 Sabar 7

33 Selesai 1

34 Suami 2

35 sunyi 1

36 surga 1

37 suruh 1

38 susur 1

39 Tenaga 1

40 Tidur 3

41 tukar 1

42 Tulis 1

43 Tumpang 1

44 tunggu 1

45 Turun 1

46 wajah 1

47 waktu 1

Id Kata Df

1 Akhir 1

2 Baca 1

3 Bantah 1

4 Benar 1

5 Bengkak 1

6 Beri 1

7 Bisik 1

8 Buang 1

9 Cara 1

10 Cari 1

11 Coba 1

12 Dolar 1

13 Istri 1

14 Jalan 1

15 Kadang 2

16 Kaki 1

17 kesempatan 1

18 Koridor 1

19 Lepas 1

20 Lewat 1

21 Luang 1

22 Maki 1

23 Masalah 1


(61)

Hitung inverse document frequency (idf) Tabel 3. 14 Tabel idf

Id Kata Df Idf

1 Akhir 1 0.778151

2 Baca 1 0.778151

3 Bantah 1 0.778151

4 Benar 1 0.778151

5 Bengkak 1 0.778151

6 Beri 1 0.778151

7 Bisik 1 0.778151

8 Buang 1 0.778151

9 Cara 1 0.778151

10 Cari 1 0.778151

11 Coba 1 0.778151

12 Dolar 1 0.778151

13 Istri 1 0.778151

14 Jalan 1 0.778151

15 Kadang 2 0.477121

16 Kaki 1 0.778151

17 Kesempatan 1 0.778151

18 Koridor 1 0.778151

19 Lepas 1 0.778151

20 Lewat 1 0.778151

21 Luang 1 0.778151

22 Maki 1 0.778151

23 Masalah 1 0.778151

24 Mata 1 0.778151

Id Kata Df idf

25 Nampak 1 0.778151

26 pasang 1 0.778151

27 pikir 1 0.778151

28 Pura 1 0.778151

29 ratus 2 0.477121

30 Rebut 1 0.778151

31 rupee 1 0.778151

32 Sabar 7 -0.06695

33 Selesai 1 0.778151

34 Suami 2 0.477121

35 sunyi 1 0.778151

36 surga 1 0.778151

37 suruh 1 0.778151

38 susur 1 0.778151

39 Tenaga 1 0.778151

40 Tidur 3 0.30103

41 tukar 1 0.778151

42 Tulis 1 0.778151

43 Tumpang 1 0.778151

44 tunggu 1 0.778151

45 Turun 1 0.778151

46 wajah 1 0.778151


(62)

Idf = log(6/1)=0.778151 Idf = log(6/3)= 0.30103 Idf = log(6/2)=0.477121 Idf = log(6/7)= -0.06695 Hitung weight (w)

Weight (w) data dengan paragraph yang mengandung kata sabar dengan makna keadaan:

Tabel 3. 15 Tabel W dengan makna Keasaan

Weight (w) data dengan paragraph yang mengandung kata sabar dengan makna komunikasi:

Tabel 3. 16 Tabel W dengan makna Komunikasi

Id Kata Tf Idf W

1 Coba 1 0.778151 0.778151

2 Cari 1 0.778151 0.778151

3 Cara 1 0.778151 0.778151

4 Selesai 1 0.778151 0.778151

5 Masalah 1 0.778151 0.778151

6 Suruh 1 0.778151 0.778151

7 Lepas 1 0.778151 0.778151

8 Sabar 1 -0.06695 -0.06695

9 Mata 1 0.778151 0.778151

10 Bengkak 1 0.778151 0.778151

Id Kata Tf Idf W

1 Sabar 1 -0.06695 -0.06695

2 pura 1 0.778151 0.778151

3 tidur 3 0.30103 0.90309

4 kadang 2 0.477121 0.954242


(63)

Weight (w) data dengan paragraph yang mengandung kata sabar dengan makna pekerjaan:

Tabel 3. 17 Tabel W dengan makna pekerjaan

Id Kata Tf Idf W

1 Sabar 2 -0.06695 -0.1339

2 Buang 1 0.778151 0.778151

3 Tenaga 1 0.778151 0.778151

4 Waktu 1 0.778151 0.778151

5 Piker 1 0.778151 0.778151

6 Ratus 2 0.477121 0.954242

7 Rupee 1 0.778151 0.778151

8 Maki 1 0.778151 0.778151

9 Tukar 1 0.778151 0.778151

10 Dolar 1 0.778151 0.778151

Weight (w) data dengan paragraph yang mengandung kata sabar dengan makna sifat:

Tabel 3. 18 Tabel W dengan Makna Sifat

Id Kata Tf Idf W

1 Istri 1 0.778151 0.778151

2 Suami 2 0.477121 0.954242

3 Bantah 1 0.778151 0.778151

4 Sabar 1 -0.06695 -0.06695


(64)

Weight (w) data dengan paragraph yang mengandung kata sabar dengan makna urutan tindakan:

Tabel 3. 19 Tabel W dengan makna urutan tindakan

Weight (w) data dengan paragraph yang mengandung kata sabar dengan makna urutan giliran:

Id Kata Tf Idf W

1 Tulis 1 0.778151 0.778151

2 Sabar 1 -0.06695 -0.06695

3 Baca 1 0.778151 0.778151

4 Bisik 1 0.778151 0.778151

5 Pasang 1 0.778151 0.778151

6 Kaki 1 0.778151 0.778151

7 Susur 1 0.778151 0.778151

8 Koridor 1 0.778151 0.778151


(65)

Tabel 3. 20 Tabel W dengan makna urutan giliran

Id Kata Tf Idf W

1 Tumpang 1 0.778151 0.778151

2 Rebut 1 0.778151 0.778151

3 Turun 1 0.778151 0.778151

4 Wajah 1 0.778151 0.778151

5 Nampak 1 0.778151 0.778151

6 Sabar 1 -0.06695 -0.06695

7 Tunggu 1 0.778151 0.778151

8 Luang 1 0.778151 0.778151

9 Jalan 1 0.778151 0.778151

10 Beri 1 0.778151 0.778151

11 Kesempatan 1 0.778151 0.778151

12 Lewat 1 0.778151 0.778151

3.5.K-means

Langkah setelah dilakukan pembobotan adalah pengelompokan menggunakan k-means untuk mendpatkan himpunan centroid. Hal ini diawalai dengan memilih centroid awal = 6 dipilih 6 centroid karena sudah dibatasi dengan pengelompokan topic yang diasumsikan menjadi enam kelompok cluster, yaitu keadaan, komunikasi, pekerjaan, sifat, urutan tindakan, urutan giliran. K-means ini dilakukan sebanyak jumalh computation/jumlah dilakukannya metode k-means (c=6). Setelah mendapatkan centroid kemudian dilakukan perhitungan euclidean distance untuk menghitung jarak masing-masing centroid ke setiap dokumen.


(66)

3.4.Spesifikasi Perangkat Keras dan Perangkat Lunak

Perangkat keras yang digunakan untuk membangun sistem adalah sebagai berikut:

Processor : Intel(R) Celeron(R) CPU 1005 @ 1.90GHz 1.90 GHz Memory : 4 GB

Hardisk : 500 GB

Perangkat lunak yang digunakan untuk membangun sistem adalah sebagai berikut:

Sistem Operasi : Windows 10 Pro

Aplikasi : Netbeans IDE 7.2.1


(67)

50 BAB IV

IMPLEMENTASI SISTEM DAN ANALISA HASIL

Berdasarkan metodologi yang dijelaskan pada bab sebelumnya, maka penelitian ini dapat diimplementasikan dengan langkah-langkah sebagai berikut.

4.1.Implemenasi

Implementasi yang diterapkan pada bab ini merupakan penerapan metodologi yang telah dipaparkan pada bab sebelumnya. Implementasi mencakup proses information retrieval, kemudian data dikelompokan menggunakan k-means clustering.

4.1.1.Pengolahan Data

Data yang digunakan adalah artikel yang bersumber dari website www.corci.org yang terlebih dahulu diubah menjadi teks berekstensi .txt. Data yang digunakan berjumlah 108 dokumen.Data yang diambil dibagi mejadi enam kelompok yaitu keadaan, komunikasi, pekerjaan, sifat, urutan tindakan, urutan giliran.

Gambar 4. 1 Gambar Folder Kelompok Dokumen

Data paragraph yang didapat dari website corci.org sudah dikelompokan berdasarkan maknanya secara manual. Pada penelitian ini


(68)

penulis akan membandingkan antara pengelompokan yang dilakukan secara manual dengan data yang dikelompokan menggunakan metode K-means clustering. Berikut data yang telah dikelompokan secara manual dari website corci.org.

Data paragraph dengan kata sabar yang bermakna sebagai keadaan berjumlah 33 dokumen, berikut data yang termasuk dalam kelas keadaan.

Gambar 4. 2 Gambar Data Dokumen Bermakna Keadaan

Data paragraph dengan kata sabar yang bermakna sebagai komunikasi berjumlah 15 dokumen, berikut data yang termasuk dalam kelaskomunikasi.


(69)

Gambar 4. 3 Gambar Data Dokumen Bermakna Komunikasi

Data paragraph dengan kata sabar yang bermakna sebagai pekerjaan berjumlah 6 dokumen, berikut data yang termasuk dalam kelas pekerjaan.

Gambar 4. 4 Gambar Data Dokumen Bermakna Pekerjaan

Data paragraph dengan kata sabar yang bermakna sebagai sifat berjumlah 12 dokumen, berikut data yang termasuk dalam kelas sifat.


(70)

Data paragraph dengan kata sabar yang bermakna sebagai urutan tindakan berjumlah 20 dokumen, berikut data yang termasuk dalam kelas urutan tindakan.

Gambar 4. 6 Gambar Data Dokumen Bermakna Urutan Tindakan

Data paragraph dengan kata sabar yang bermakna sebagai urutan giliran berjumlah 22 dokumen, berikut data yang termasuk dalam kelas urutan giliran


(71)

Gambar 4. 7 Gambar Data Dokumen Bermakna Urutan Giliran

4.1.2.Preprocessing

Tahap ini merupakan tahap awal yang dilakukan sebelum masuk ke dalam proses K-Means Clustering.

4.1.2.1.Tokenizing

Proses tokenizing memecah kalimat menjadi token dengan memanfaatkan karakter spasi sebagai pemisah antar token. Kemudian penulisan token diubah menjadi huruf kecil. Proses ini juga akan menghilangkan tanda baca, angka, dan karakter selain huruf.


(72)

public void Tokenize() {

if (tokenized) {

return;

}

try {

FileInputStream fis = new FileInputStream(filename);

Scanner s = new Scanner(fis);

if (daftarKata == null) {

daftarKata = new ArrayList<>();

} else {

daftarKata.clear();

}

while (s.hasNext()) {

String text = s.next();

// StringTokenizer token = new StringTokenizer(text.toLowerCase(),

// " .,()?!-_+:;/*&^%$#@!~[]{}=()");

String kata = text.replaceAll("[^a-zA-Z&&[^\\-]]", ""); //token.nextToken();

daftarKata.add(kata);

}

tokenized = true;

} catch (FileNotFoundException ex) {

tokenized = false;

Logger.getLogger(Dokumen.class.getName()).log(Level.SEVERE, null, ex);}}


(73)

4.1.2.2.Stopword

Proses stopwordmenghilangkan kata-kata umum yang sring muncul.

4.1.2.3.Stemming

Stemming merupakan suatu proses yang terdapat dalam sistem IR yang mentransformasi kata-kata yang terdapat dalam suatu dokumen ke kata-kata akarnya (root word) dengan menggunakan aturan-aturan tertentu. Sebagai contoh, kata public void hapusstopword() {

if (removedStopWords) {

return;

}

if (kamusStopWord == null) {

throw new IllegalStateException("Kamus stopword belum ada");

}

if (!tokenized) {

throw new IllegalStateException("Dokumen belum di-tokenize");

}

Iterator<String> i = daftarKata.iterator();

while (i.hasNext()) {

String token = i.next();

if (kamusStopWord.contains(token)) {

i.remove();

}

}


(1)

126

bersih 0.3325 0 0 0.1995 0 0

koper 0 0 0 0.234 0 0

rela 0.3325 0 0.120909091 0 0 0

rantig-ranting 0 0 0 0 0 0.212727273

rayap 0.39 0 0 0 0 0

nikah 0 0 0 0.234 0 0

dari 0 0 0.241818182 0 0 0

paku 0 0 0.141818182 0 0 0

kecuali 0.39 0 0 0 0 0

demonstrasi 0 0 0 0.234 0 0

nepal 0 0 0 0.234 0 0

iwin 0 0 0 0 2.341666667 0

maling 0 0.312 0 0 0 0

kanak-kanak 0 0 0 0.234 0 0

gegas 0 0.266 0.120909091 0 0 0

kapal 0 0 0 0 0 0.362727273

kadang 0 0.624 0 0 0 0

jaket 0 0 0.141818182 0 0 0

si 0 0.180666667 0.246363636 0.1355 0.903333333 0.123181818

kesal 0 0 0.141818182 0 0 0

muak 0 0 0.141818182 0 0 0

kuat 0 0.238666667 0 0.358 0 0

pagelaran 0 0 0.141818182 0 0 0

unggul 0 0 0 0 0.78 0

laki 0 0 0.108484848 0.179 0 0.162727273

kuap 0 0 0 0.234 0 0

bahasa 0 0 0.120909091 0 0 0.181363636

sulit 0 0 0.120909091 0 0.665 0

sahara 0.3325 0.266 0 0 0 0

kuak 0 0 0 0 0 0.212727273

laku 0.298333333 0 0.108484848 0.179 0 0

nganga 0 0.266 0.120909091 0 0 0

dua 0.298333333 0.238666667 0 0.179 0 0

mulia 0.39 0 0 0 0 0

mahayana 0 0 0 0.234 0 0

dengki 0 0 0 0 0.78 0

teror 0 0 0 0 0.78 0

kadangkala 0 0 0.141818182 0 0 0

raih 0 0.238666667 0.108484848 0 0 0.162727273

obrol 0 0 0.141818182 0 0 0


(2)

127

kiak 0 0.312 0 0 0 0

aspal 0 0 0 0 0.78 0

angin 0.3325 0 0 0 0 0.181363636

kotor 0 0 0.120909091 0 0 0.181363636

apakah 0.275 0 0.2 0 0 0.15

kian 0 0 0 0 0.78 0

napas 0 0 0.141818182 0 0 0

ceng 0.39 0 0 0 0 0

karena 0 0 0 0 0 0.212727273

anatolia 0 0.624 0 0 0 0

abadi 0.39 0 0 0 0 0

harun 0 0.439333333 0.399393939 0.165 0 0

bayar 0 0.312 0 0 0 0

harum 0.39 0 0 0 0 0

terpa 0 0 0 0.1995 0 0.181363636

ton 0 0 0.141818182 0 0 0

empat 0 0 0 0 0 0.212727273

timur 0 0 0.141818182 0 0 0

cina 0 0 0 0 0 0.212727273

mus 0 0.477333333 0 0 0 0.162727273

lama 0 0 0.241818182 0 0 0

tangan 0.481666667 0.192666667 0 0.289 0 0.131363636

peranjat 0.39 0 0 0 0 0

paman 0 0.312 0 0 0 0

raja 0 0.624 0 0 0 0

garcia 0.39 0 0 0 0 0

latar 0 0 0.141818182 0 0 0

atur 0 0 0 0.234 0 0

potong 0.665 0.266 0 0 0 0

iklan 0 0 0.141818182 0 0 0

gerimis 0 0 0 0 0.78 0

yaitu 0.39 0 0 0 0 0

lempuyangan 0 0 0 0 0 0.212727273

amat 0 0 0 0.234 0 0

kecil 0 0 0 0 0.78 0

tempe 0 0.312 0 0 0 0

tak 0 0.192666667 0 0.7225 0 0.131363636

sentak 0.39 0 0 0 0 0

dang 0 0 0 0 0 0.212727273

marching 0 0 0 0.234 0 0


(3)

128

diam 0.3325 0.266 0 0 0 0

pagi 0 0.478 0 0.358 0 0

tempo 0 0 0.108484848 0.358 0 0

titip 0 0.266 0 0.1995 0 0

rencana 0 0 0.425757576 0 0 0

damba 0 0 0 0 0 0.212727273

tuhu 0.39 0 0 0 0 0

akan 0.39 0 0 0 0 0

tepat 0 0.312 0 0 0 0

linna 0 0.312 0 0 0 0

surut 0 0 0 0.234 0 0

gambar 0 0.312 0 0 0 0

semena-mena 0 0 0.141818182 0 0 0

bungkus 0 0.312 0 0 0 0

ancam 0 0 0 0 0.78 0

malam 0.366666667 0.146666667 0.133333333 0.66 0 0.1

akar 0 0 0 0 1.995 0

suruh 0 0.238666667 0 0.179 0 0.162727273

istri 0.55 0 0 0 0 0.3

gundah 0 0.312 0 0 0 0

me-leluri 0.39 0 0 0 0 0

kau 0 0.202666667 0.460909091 0 0 0

hawa 0 0 0 0 0.78 0

keluh 0 0 0 0 0 0.212727273

perhati 0 0 0 0.1995 0.665 0

bantu 0 0.312 0 0 0 0

kal 0 0.266 0 0 0 0.725454545

dia 0.191666667 0.153333333 0.209393939 0.46 0 0.209090909 asa 0.225833333 0.180666667 0.082121212 0 0.451666667 0.369545455

kak 0 0 0 0 0.78 0

minat 0 0.312 0 0 0 0

tabla 0 0 0 0.234 0 0

kingayah 0 0 0 0 0 0.425454545

tay 0 0 0 0 0 0.212727273

cita 0.39 0 0 0 0 0

tas 0 0.202666667 0.092121212 0.4565 0 0.138181818

mudah 0 0.266 0.120909091 0 0 0

tarik 0 0 0 0.3045 0.506666667 0.414545455

mereka 0.3325 0 0 0 0 0.362727273

tolol 0 0 0.141818182 0 0 0


(4)

129

firdaus 0.39 0 0 0 0 0

negara 0 0 0.141818182 0 0 0

lestari 0 0 0 0 0.78 0

panggil 0 0.312 0 0 0 0

cemerlang 0 0 0 0 0.78 0

tirai 0 0 0 0 0 0.212727273

rena 0 0 0.283636364 0 0 0

helat 0.39 0 0 0 0 0

king 0 0 0 0 0 0.212727273

tuntun 0 0 0.49969697 0 0 0

cuci 0 0 0.120909091 0 0 0.181363636

apa 0 0.312 0 0 0 0

dengansabar 0 0 0.141818182 0 0 0

pokok 0 0 0.141818182 0 0 0

bakar 0.3325 0 0 0.1995 0 0

dadak 0.298333333 0.238666667 0 0.179 0 0

mundur 0 0 0 0.234 0 0

ordil 0 0 0 0.468 0 0

hitung 0.39 0 0 0 0 0

sabarbersua 0 0 0 0.234 0 0

hadir 0.298333333 0 0 0 0 0.325454545

api 0.39 0 0 0 0 0

ikut 0 0 0.141818182 0 0 0

betas 0.39 0 0 0 0 0

belakang 0 0 0.120909091 0.1995 0 0

lapis 0 0 0.141818182 0 0 0

pernah 0 0 0 0 0.78 0

urai 0.39 0 0 0 0 0

dahan 0.78 0 0 0 0 0

masak 0 0 0.141818182 0 0 0

coklat 0 0 0 0.234 0 0

lingkar 0 0.266 0 0 0.665 0

timpa 0.39 0 0 0 0 0

positif 0 0 0 0 0.78 0

gimana 0 0 0.141818182 0 0 0

amen 0 0 0.141818182 0 0 0

sobat 0 0 0.141818182 0 0 0

menit 0 0.238666667 0.108484848 0 0 0.162727273

hati 0.8275 0.330666667 0 0 0.826666667 0.225454545

manja 0 0.266 0.120909091 0 0 0


(5)

130

tugas 0 0 0 0.234 0 0

andung 0 0 0 0 0 0.212727273

kantor 0 0 0.141818182 0 0 0

kumal 0 0 0 0.234 0 0

asap 0 0 0 0 0.78 0

waktu 0.39 0 0 0 0 0

ungkap 0.39 0 0 0 0 0

bahagia 0.39 0 0 0 0 0

bangan 0.39 0 0 0 0 0

perintah 0 0 0 0 0 0.212727273

manis 0 0 0 0 0.78 0

teduh 0 0 0 0 0 0.212727273

halau 0.39 0 0 0 0 0

undang 0.3325 0 0.120909091 0 0 0

riah 0.39 0 0 0 0 0

hibur 0.39 0 0 0 0 0

jerit 0 0 0.141818182 0 0 0

gebu 0 0 0 0.234 0 0

sandal 0 0 0.141818182 0 0 0

persetan 0 0 0.141818182 0 0 0

jumpa 0 0 0 0.234 0 0

luang 0 0 0 0 0 0.212727273

pintal 0 0 0.141818182 0 0 0

hidup 1.280833333 0 0.077575758 0.128 0 0.116363636

pacu 0 0 0 0.234 0 0

tepi 0 0 0 0.234 0 0

kampung 0 0 0 0 0.78 0

delapan 0 0 0 0.234 0 0

properti 0 0 0 0.234 0 0

anggap 0 0 0.241818182 0 0 0

campur 0.39 0 0 0 0 0

tadi 0 0 0 0 0 0.212727273

pada 0 0.405333333 0.092121212 0.152 0.506666667 0

muhammadiyah 0 0 0 0 0 0.212727273

berantung 0 0.312 0 0 0 0

ubah 0 0.312 0 0 0 0

murai 0 0 0 0 0 0.212727273

kuat-kan 0 0.312 0 0 0 0

datar 0.39 0 0 0 0 0

bong 0 0 0.141818182 0 0 0


(6)

131

tebar 0 0 0 0 0.78 0

kriminalisasi 0 0 0.141818182 0 0 0

langgam 0.39 0 0 0 0 0

dewi 0 0 0 0 0.78 0

genggam 0 0 0 0.1995 0 0.181363636

tuju 0 0 0.141818182 0 0 0

pasang 0 0 0.108484848 0.179 0.596666667 0

inggris 0 0 0.141818182 0 0 0

santai 0 0 0.141818182 0 0 0

marini 0 0 0.141818182 0 0 0

ya 0 0 0.141818182 0 0 0

the 0 0 0.120909091 0 0 0.181363636

puti 0 0 0 0.468 0 0

ciut 0 0.312 0 0 0 0

harkat 0 0 0 0 0 0.212727273

kepalang 0.39 0 0 0 0 0

belah 0 0 0.141818182 0 0 0

tawan 0 0 0 0 0 0.212727273

luka 0.665 0 0.120909091 0 0 0

biasa 0 0 0.141818182 0 0 0

mental 0 0 0 0.234 0 0

sabaringin 0 0 0 0.234 0 0

tawar 0.3325 0.266 0 0 0 0

belas 0 0 0 0.234 0 0

ambruk 0 0 0.141818182 0 0 0

podium 0 0 0 0.468 0 0

serta 0.3325 0 0 0 0 0.181363636