Pengelompokan artikel berbahasa Jawa dengan hierarchical k means clustering.
BERBAHASA JAWA DENGAN HIERARCHICALK
MEANSCLUSTERING
ABSTRAK
Artikel memiliki berbagai jenis topik, sebagai contoh: berita ekonomi, kesehatan, dan sebagainya. Berdasarkan pada jenis artikel di atas ternyata dapat digali informasi yang dapat
dimanfaatkan (knowledge discovery). Knowledge discoverypada data teks dapat dilakukan
dengan proses awal berupa information retrieval. Proses dari information retrieval bertujuan
untuk menemukan ciri dari dokumen, untuk selanjutnya dilakukan analisis keterhubungan antar dokumen dengan menggunakan metode pengelompokan. Sebelum dikelompokkan, data
dokumen dari media cetak harus diubah ke bentuk text file. Selanjutnya masuk tahap
information retrievaluntuk memperoleh ciri dari suatu dokumen. Proses yang dilakukan
adalah tokenizing, stop word, stemming, dan weighting. Berdasarkan proses information
retrieval yang telah dilakukan, data dikelomopokan menggunakan Hierarchical K Means.
Metode Hierarchical K Means terdiri dari dua buah algoritma utama, yaitu K Means dan
agglomerative hierarchical clustering (AHC) khususnya teknik single linkage. Single linkage
dilakukan mencari centroid yang paling baik. Proses selanjutnya dilakukan K Means dengan
menggunakan centroid hasil single linkage, guna menghasilkan cluster terbaik. Setiap hasil
cluster dievaluasi dengan metode evaluasi internal,metode yang digunakan adalah sum of square error (SSE). Cluster yang memiliki error minimum diuji kembali dengan evaluasi
eksternal, yaitu dengan menggunakan (confusiion matrix). Berdasarkan percobaan
pengelompokan yang dilakukan didapatkan pembentukan tiga cluster, yang memiliki error
cluster minimum 19,84822 (evaluasi internal) dan memiliki akurasi maksimum 80% (evaluasi eksternal). Pembentukan tiga kelompok ini juga sesuai dengan tujuan yang ingin dicapai dalam tulisan ini, yaitu untuk mendapatkan pengelompokan dari artikel dan dapat membantu untuk mengetahui jenis topik artikel.
(2)
USING HIERARCHICAL KMEANS
ABSTRACT
There are many kinds of topic article—economy, health, politic, etc. Within those articles,
there is useful information that can be found (knowledge discovery). Knowledge discovery on the text data could be initiated by the initial process called information retrieval. The information retrieval process aimed to collect the characteristic of a document in order to analyze the connection between documents by using clustering method. Before conducting
the clustering process, document’sdata from printed media should be converted into text file.
The next step is information retrieval. In this step, the information retrieval collected the characteristic of a document by using tokenizing, stop word, stemming, and weighting. Documents data clustered by using Hierarchical K Means method based on information retrieval. This method consisted of two main algorithms, which are K Means and agglomerative hierarchical clustering (AHC) with single linkage technic. Single linkage would collect the best centroid. In the next process, K Means was initiated using best centroid from AHC to produce best cluster. Every cluster produced would be evaluated by internal evaluation method. The internal evaluation method is sum of square error (SSE). Clusters with minimum error would be retested by external evaluation method using confusion matrix. There are three outcome of clusters based on the clustering trial, which have minimum error 19,84882 (internal evaluation) and maximum accuracy 80% (external evaluation). The
forming of these three clusters was corresponded with this paper’s objectives, which are
(3)
i HALAMAN JUDUL
PENGELOMPOKAN ARTIKEL
BERBAHASA JAWA DENGAN HIERARCHICAL K MEANS
CLUSTERING
SKRIPSI
Diajukan Untuk Memenuhi Salah Satu Syarat Memperoleh Gelar Sarjana Komputer
Program Studi Teknik Informatika
Disusun Oleh :
Aluisius Bachtiar Bayu Saputra 115314076
PROGRAM STUDI TEKNIK INFORMATIKA JURUSAN TEKNIK INFORMATIKA FAKULTAS SAINS DAN TEKNOLOGI
UNIVERSITAS SANATA DHARMA YOGYAKARTA
(4)
ii HALAMAN JUDUL
JAVANESE LANGUAGE ARTICLES CLUSTERING
USING HIERARCHICAL K MEANS
A Final Project
Presented as Partial Fulfillment of The Requirements
To Obtain Sarjana Komputer Degree
In Informatics Engineering Study Program
By:
Aluisius Bachtiar Bayu Saputra 115314076
INFORMATICS ENGINEERING STUDY PROGRAM DEPARTMENT OF INFORMATICS ENGINEERING
FACULTY OF SCIENCE AND TECHNOLOGY SANATA DHARMA UNIVERSITY
YOGYAKARTA 2015
(5)
iii
HALAMAN PERSETUJUAN SKRIPSI
PENGELOMPOKAN ARTIKEL
BERBAHASA JAWA DENGAN HIERARCHICAL K MEANS
CLUSTERING
Disusun oleh:
Aluisius Bachtiar Bayu Saputra 115314076
Telah disetujui oleh:
Dosen Pembimbing
(6)
iv
HALAMAN PENGESAHAN SKRIPSI
PENGELOMPOKAN ARTIKEL
BERBAHASA JAWA DENGAN HIERARCHICAL K MEANS
CLUSTERING
Dipersiapkan dan disusun oleh:
Nama : Aluisius Bachtiar Bayu Saputra
NIM : 115314093
Telah dipertahankan di depan panitia penguji pada tanggal 23 Juli 2015
dan dinyatakan memenuhi syarat
Susunan Panitia Penguji:
Nama Lengkap Tanda Tangan
Ketua : JB Budi Darmawan, S.T., M.Sc. _____________
Sekretaris : Eko Hari Parmadi, S.Si., M.Kom. _____________
Anggota : Sri Hartati Wijono, S.Si., M.Kom. _____________
Yogyakarta, Juli 2015 Fakultas Sains dan Teknologi Universitas Sanata Dharma Dekan,
(7)
v
HALAMAN PERSEMBAHAN
Tugas akhir ini saya persembahkan untuk: Tuhan Yesus Yang Maha Baik
Bapak dan Ibu tercinta
Clothilde Arum ―si Gembul‖
Arzeta von A34 Renata Smile von Mentari
(8)
vi
PERNYATAAN KEASLIAN KARYA
Saya menyatakan dengan sesungguhnya bahwa skripsi saya tulis ini tidak memuat karya atau bagian karya orang lain, kecuali yang telah disebutkan dalam kutipan dan daftar pustaka sebagaimana layaknya karya ilmiah.
Yogyakarta, 28 Juli 2015
Penulis
(9)
vii
LEMBAR PERNYATAAN PERSETUJUAN
PUBLIKASI KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Yang bertanda tangan di bawah ini, saya mahasiswa Universitas Sanata Dharma : Nama : Aluisius Bachtiar Bayu Saputra
Nomor Mahasiswa : 115314076
Demi pengembangan ilmu pengetahuan, saya memberikan kepada Perpustakaan Universitas Sanata Dharma karya ilmiah saya yang berjudul :
Pengelompokan Artikel Berbahasa Jawa dengan Hierarchical K Means Clustering
beserta perangkat yang diperlukan. Dengan demikian saya memberikan kepada Perpustakaan Universitas Sanata Dharma hak untuk menyimpan, me-ngalihkan dalam bentuk media lain, mengelolanya dalam bentuk pangkalan data, mendistribusikan secara terbatas, dan mempublikasikannya di Internet atau media lain untuk kepentingan akademis tanpa perlu meminta ijin dari saya maupun memberikan royalti kepada saya selama tetap mencantumkan nama saya sebagai penulis.
Demikian pernyataan ini yang saya buat dengan sebenarnya. Dibuat di Yogyakarta
Pada tanggal : 31 Juli 2015 Yang menyatakan
(10)
viii ABSTRAK
PENGELOMPOKAN ARTIKEL
BERBAHASA JAWA DENGAN HIERARCHICAL K MEANS
CLUSTERING
ABSTRAK
Artikel memiliki berbagai jenis topik, sebagai contoh: berita ekonomi, kesehatan, dan sebagainya. Berdasarkan pada jenis artikel di atas ternyata dapat digali
informasi yang dapat dimanfaatkan (knowledge discovery). Knowledge discovery
pada data teks dapat dilakukan dengan proses awal berupa information retrieval.
Proses dari information retrieval bertujuan untuk menemukan ciri dari dokumen,
untuk selanjutnya dilakukan analisis keterhubungan antar dokumen dengan menggunakan metode pengelompokan. Sebelum dikelompokkan, data dokumen
dari media cetak harus diubah ke bentuk text file. Selanjutnya masuk tahap
information retrieval untuk memperoleh ciri dari suatu dokumen. Proses yang
dilakukan adalah tokenizing, stop word, stemming, dan weighting. Berdasarkan
proses information retrieval yang telah dilakukan, data dikelomopokan
menggunakan Hierarchical K Means. Metode Hierarchical K Means terdiri dari
dua buah algoritma utama, yaitu K Means dan agglomerative hierarchical
clustering (AHC) khususnya teknik single linkage. Single linkage dilakukan
mencari centroid yang paling baik. Proses selanjutnya dilakukan K Means dengan
menggunakan centroid hasil single linkage, guna menghasilkan cluster terbaik.
Setiap hasil cluster dievaluasi dengan metode evaluasi internal, metode yang
digunakan adalah sum of square error (SSE). Cluster yang memiliki error
minimum diuji kembali dengan evaluasi eksternal, yaitu dengan menggunakan (confusiion matrix). Berdasarkan percobaan pengelompokan yang dilakukan
didapatkan pembentukan tiga cluster, yang memiliki error cluster minimum
19,84822 (evaluasi internal) dan memiliki akurasi maksimum 80% (evaluasi eksternal). Pembentukan tiga kelompok ini juga sesuai dengan tujuan yang ingin dicapai dalam tulisan ini, yaitu untuk mendapatkan pengelompokan dari artikel dan dapat membantu untuk mengetahui jenis topik artikel.
(11)
ix ABSTRACT
JAVANESE LANGUAGE ARTICLES CLUSTERING
USING HIERARCHICAL K MEANS
ABSTRACT
There are many kinds of topic article—economy, health, politic, etc. Within those
articles, there is useful information that can be found (knowledge discovery). Knowledge discovery on the text data could be initiated by the initial process called information retrieval. The information retrieval process aimed to collect the characteristic of a document in order to analyze the connection between documents by using clustering method. Before conducting the clustering process,
document’s data from printed media should be converted into text file. The next
step is information retrieval. In this step, the information retrieval collected the characteristic of a document by using tokenizing, stop word, stemming, and weighting. Documents data clustered by using Hierarchical K Means method based on information retrieval. This method consisted of two main algorithms, which are K Means and agglomerative hierarchical clustering (AHC) with single linkage technic. Single linkage would collect the best centroid. In the next process, K Means was initiated using best centroid from AHC to produce best cluster. Every cluster produced would be evaluated by internal evaluation method. The internal evaluation method is sum of square error (SSE). Clusters with minimum error would be retested by external evaluation method using confusion matrix. There are three outcome of clusters based on the clustering trial, which have minimum error 19,84882 (internal evaluation) and maximum accuracy 80% (external evaluation). The forming of these three clusters was corresponded with
this paper’s objectives, which are to cluster the article and to find out the type of
(12)
x
KATA PENGANTAR
Puji dan syukur penulis panjatkan atas kehadirat Tuhan Yang Maha Esa atas berkat, rahmat serta kasih-Nya sehingga penulis dapat menyelesaikan skripsi
yang berjudul ―Pengelompokan Artikel Berbahasa Jawa dengan Hierarchical
K Means Clustering‖.
Penulisan skripsi ini bertujuan untuk memenuhi sebagian syarat memperoleh gelar sarjana komputer program studi S1 jurusan Teknik Informatika Universitas Sanata Dharma. Penulis menyadari bahwa skripsi ini masih jauh dari sempurna oleh sebab itu penulis mengharapkan kritik dan saran yang bersifat membangun dari semua pihak demi kesempurnaan skripsi ini.
Selesainya skripsi ini tidak lepas dari peran penting berbagai pihak, sehingga pada kesempatan ini penulis dengan segala kerendahan hati serta rasa
hormat mengucapkan terima kasih yang sebesar – besarnya kepada semua pihak
yang telah memberikan dukungan baik secara langsung maupun tidak langsung kepada penulis dalam penyusunan skripsi ini hingga selesai. Pada proses penulisan tugas akhir ini, saya ucapkan banyak terima kasih kepada:
1. Tuhan Yesus selaku pembimbing iman dalam hidup yang selalu
memberi solusi di atas segala solusi.
2. Ibu Sri Hartati Wijono, S.Si., M.Kom. selaku pembimbing yang
memberikan pengarahan serta solusi dalam pengerjaan skripsi ini hingga selesai.
3. Romo Dr. Cyprianus Kuntoro Adi, SJ, MA, M.Sc. yang rela
meluangkan waktunya untuk ngopi dan berbagi solusi.
4. Kedua orangtua, Bapak Y. Sumaryono dan Ibu Laurentina Suparmi
yang selalu rela berkorban, mendoakan serta memberikan motivasi kepada penulis.
5. Romo Poldo Andreas Situmorang yang senantiasa tulus meluangkan
waktunya untuk konsultasi mengenai penelitian ini.
6. Yang tergembul, Clothilde Arum JR yang rela ditinggal pergi pagi
(13)
xi
7. Semok Crew (Poldo, Ega, dan Nusa) yang senantiasa kompak dalam
kerjasama team, baik siang, malam, maupun subuh menjelang, baik di
kampus, base camp, maupun di bar.
8. Seluruh civitas akademika Teknik Informatika angkatan 2011,
terutama anggota C++ yang telah berjuang bersama dan saling memberi
semangat dan inspirasi.
9. Semua pihak, baik langsung maupun tidak, yang telah membantu
dalam proses penyelesaian skripsi ini.
Penulis menyadari bahwa masih banyak kekurangan yang terdapat dalam skripsi ini. Saran dan kritik diharapkan untuk perbaikan-perbaikan pada masa yang akan datang. Semoga bermafaat.
Penulis menyadari masih banyak kekurangan dalam menyusun skripsi ini, namun penulis tetap berharap skripsi ini bermanfaat bagi pengembangan ilmu pengetahuan.
Yogyakarta, 28Juli 2015
Penulis
(14)
xii
DAFTAR ISI
HALAMAN JUDUL ... i
HALAMAN JUDUL ... ii
HALAMAN PERSETUJUAN ... iii
HALAMAN PENGESAHAN ... iv
HALAMAN PERSEMBAHAN ... v
PERNYATAAN KEASLIAN KARYA ... vi
ABSTRAK ... viii
ABSTRACT ... ix
KATA PENGANTAR ... x
DAFTAR ISI ... xii
DAFTAR GAMBAR ... xiv
DAFTAR TABEL ... xv
BAB I PENDAHULUAN ... 1
1.1 Latar Belakang ... 1
1.2 Rumusan Masalah ... 3
1.3 Batasan Masalah ... 3
1.4 Tujuan ... 4
1.5 Metodologi Penelitian ... 4
1.6 Sistematika Penulisan ... 5
BAB II LANDASAN TEORI ... 7
2.1 Information Retrieval ... 7
2.2 Clustering ... 19
2.3. Evaluasi ... 30
BAB III METODOLOGI PENELITIAN... 32
3.1 Data ... 32
3.2 Teknik Analisis Data ... 32
3.3 Desain User Interface ... 42
3.4 Spesifikasi Software dan Hardware ... 42
BAB IV IMPLEMENTASI DAN ANALISIS HASIL ... 43
4.1 Implementasi ... 43
(15)
xiii
4.1.2 Pengolahan Data... 50
4.2 Analisis Hasil ... 64
BAB V PENUTUP ... 80
5.1.Kesimpulan ... 80
5.2 Saran ... 82
DAFTAR PUSTAKA ... 83
(16)
xiv
DAFTAR GAMBAR
Gambar 2.1 Proses Information Retrieval (Manning, 2008)... 8
Gambar 2.2 Distribusi Zipf (Manning, 2008) ... 12
Gambar 2.3 Ilustrasi Penentuan Keanggotaan Kelompok Berdasarkan Jarak (Turban dkk, 2005)... 20
Gambar 2.4 Dendrogram ... 24
Gambar 2.5 Dendrogram singlelinkage untuk 5 obyek data ... 29
Gambar 3.1 Diagram Block Proses Clustering. ... 33
Gambar 3.2 Pembobotan tf-idf ... 35
Gambar 3.3 Langkah Menghitung Jarak Minimum pada single linkage ... 38
Gambar 3.4 Langkah Menghitung Menggabungkan Kelompok yang Berdekatan39 Gambar 3.5 Dendrogram ... 39
Gambar 3.6 Tampilan Menu Utama... 42
Gambar 4.1 Implementasi User Interface Awal (sebelum proses dilakukan) ... 44
Gambar 4.2 Implementasi User Interface (setelah dilakukan proses) ... 44
Gambar 4.3 Button Preprocessing dan Button Proses ... 45
Gambar 4.4 Hasil Kata Unik ... 46
Gambar 4.5 Hasil Pengelompokan Terbaik ... 47
Gambar 4.6 Anggota Cluster dari Pengelompokan Terbaik ... 48
Gambar 4.7 Hasil Centroid Terbaik yang Digunakan Pengelompokan ... 48
Gambar 4.8 Hasil Himpunan Centroid yang Divisualisasikan dengan Dendrogram ... 49
Gambar 4.9 Hasil Akurasi Berdasarkan Pengelompokan Terbaik... 49
Gambar 4.10 Peringatan/Informasi dari Aksi Menekan Button Preprocessing dan Proses ... 50
Gambar 4.11 Jumlah Data Dokumen yang Digunakan ... 51
Gambar 4.12 Salah Satu Contoh Data Dokumen ... 51
Gambar 4.13 Hasil Tokenizing ... 53
Gambar 4.14 Hasil Stop Word ... 54
Gambar 4.15 Hasil Stemming ... 56
Gambar 4.16 Hasil Indexing ... 57
Gambar 4.17 Dendrogram ... 59
Gambar 4.18 Centroid Awal ... 60
Gambar 4.19 Pembagian Cluster Beserta Anggotanya ... 62
Gambar 4.20 Pembagian Anggotanya Cluster ... 62
Gambar 4.21 Pemilihan SSE Minimum ... 63
Gambar 4.22 Hasil Akurasi ... 64
Gambar 4.23 Perbandingan Pemotongan Frekuensi Kata ... 78
(17)
xv
DAFTAR TABEL
Tabel 2.1 Rule untuk Suffix ... 14
Tabel 2.2 Rule untuk Prefix ... 14
Tabel 2.3 Rule untuk Infix ... 15
Tabel 2.4 Contoh Data Perhitungan hierarchical clustering ... 25
Tabel 2.5 Matriks jarak ... 26
Tabel 2.6 Matriks Jarak Pertama singlelinkage ... 27
Tabel 2.7 Matriks Jarak Kedua singlelinkage ... 27
Tabel 2.8 Matriks Jarak Ketiga singlelinkage ... 28
Tabel 3.1 Pembobotan ... 35
Tabel 3.2 Perhitungan Jarak antara Dokumen dengan Centroid... 37
Tabel 3.3 Hasil Himpunan Cluster Berdasarkan Pemotongan ... 40
Tabel 3.4 Hasil iterasi K Means yang Sudah Stabil ... 41
Tabel 4.1 Percobaan 1 dengan range term frekuensi 0-152 (tanpa pemotongan term) dengan jumlah kata unik 2.358 ... 66
Tabel 4.2 Hasil Akurasi 1 dengan tf 0-152(tanpa pemotongan) dengan jumlah kata unik 2.358 ... 67
Tabel 4.3 Percobaan 2 dengan range term frekuensi 20-130, dengan jumlah kata unik 236. ... 68
Tabel 4.4 Hasil Akurasi 2 dengan tf 20-130 dengan jumlah kata unik 236. ... 69
Tabel 4.5 Hasil Percobaan 3 dengan c=2 dan range 70-90 dengan jumlah kata unik 11. ... 70
Tabel 4.6 Hasil Akurasi 3 c=2 dan range 70-90 dengan jumlah kata unik 11. ... 70
Tabel 4.7 Hasil Percobaan 4 dengan c=4 dan range 70-90 dengan jumlah kata unik 11. ... 71
Tabel 4.8 Hasil Akurasi 4 c=4 dan range 70-90 dengan jumlah kata unik 11. ... 71
Tabel 4.9 Hasil Percobaan 5 dengan c=2 dan range 50-150 dengan jumlah kata unik 40. ... 72
Tabel 4.10 Hasil Akurasi 5 c=2 dan range 50-150 dengan jumlah kata unik 40. . 72
Tabel 4.11 Hasil Percobaan 6 dengan c=4 dan range 50-150 dengan jumlah kata unik 40. ... 73
Tabel 4.12 Hasil Akurasi 6 c=4 dan range 50-150 dengan jumlah kata unik 40. . 73
Tabel 4.13 Percobaan 7 dengan range term frekuensi 75-85 dengan jumlah kata unik 4. ... 74
(18)
1
1.
BAB I
PENDAHULUAN
1.1 Latar Belakang
Media cetak adalah sarana menuangkan gagasan dan buah pikiran. Salah satu jenis media cetak adalah majalah. Ada beberapa daerah yang memiliki majalah dengan bahasa daerahnya, sebagai contoh: Jaka Lodhang, Mekar Sari, Panjebar Semangat (Bahasa Jawa) dan Cupumanik, Manglé (Bahasa Sunda). Seperti halnya Bahasa Inggris dan Bahasa Indonesia, artikel berbahasa Jawa juga memiliki informasi tersembunyi yang dapat digali dan dimanfaatkan, yang
membedakannya adalah proses stemming dan aturan-aturan setiap bahasa.
Artikel memiliki berbagai jenis topik, sebagai contoh: berita ekonomi, kesehatan, dan sebagainya. Berdasarkan pada jenis-jenis artikel di atas ternyata
dapat digali informasi yang dapat dimanfaatkan sebagai knowledge discovery.
Knowledge discovery adalah kegiatan menggali informasi dan pola tersembunyi
pada suatu sumber data. Knowledge discovery dengan data teks dapat dilakukan
dengan proses information retrieval (Han, 2011). Information retrieval adalah
sekumpulan algoritma dan teknologi untuk melakukan pemrosesan, penyimpanan, dan menemukan kembali informasi (tertstruktur) pada suatu koleksi data yang besar (Manning, 2008). Terdapat beberapa tahap yang harus dilakukan dalam information retrieval, secara umum dapat dibagi ke dalam tahap seperti berikut: tokenizing, stopword, stemming, indexing.
(19)
2 Pengelompokan dokumen dapat dikerjakan dengan metode tertentu,
penelitian ini akan menggunakan salah satu metode clustering yaitu K Means.
Pemilihan algoritma K Means karena memiliki banyak keunggulan daripada
algoritma lainnya (Baswade, 2013), keunggulan K Means diantaranya:
1. Relatif efisien dengan O (knt) di mana k-jumlah cluster, n-jumlah objek,
t-jumlah iterasi.
2. Mudah untuk diimplementasikan dan dijalankan.
3. Waktu yang dibutuhkan untuk menjalankan pembelajaran ini relatif cepat.
4. Mudah untuk diadaptasi.
Keunggulan yang ditawarkan K Means membuat banyak penelitian yang menggunakan metode tersebut, salah satu diantaranya: Analisa Perbandingan
Metode Hierarchical Clustering, K-means dan Gabungan Keduanya dalam
Cluster Data (Studi kasus : Problem Kerja Praktek Jurusan Teknik Industri ITS) (Alfina, Santosa, Ridho Barakbah, 2012), Klasterisasi, Klasifikasi dan Peringkasan Teks Berbahasa Indonesia (Raharjo dan Winarko, 2014), serta Deteksi Iris Mata
untuk Menentukan Kelebihan Kolesterol Menggunakan Ekstraksi Ciri Moment
Invariant dengan K-Means Clustering (Handini Rani, Supriyati, Khotimah, 2014). Berdasarkan keunggulan keunggulan dan penelitian yang telah dilakukan,
maka peneliti memilih metode K Means untuk digunakan sebagai metode
pengelompokan data, pada penerapannya akan digunakan Hierarchical clustering
untuk mengoptimalkan centroid awal sehingga diperoleh akurasi yang lebih tinggi
dibandingkan dengan random K Means dan tentunya proses pencarian dan
(20)
3 1.2 Rumusan Masalah
Bertolak dari uraian latar belakang di atas, maka peneliti mengambil rumusan masalah sebagai berikut:
1. Bagaimana langkah mengelompokkan artikel berbahasa Jawa menurut
topiknya?
2. Sejauh mana pendekatan metode hierarchical K Means mampu
mengelompokkan artikel berbahasa Jawa dengan akurasi yang baik?
1.3 Batasan Masalah
Batasan masalah sangat penting dalam membuat suatu sistem agar implementasinya nanti sesuai dengan yang diharapkan, maka batasan masalah yang akan dibahas dan diaplikasikan dalam penulisan ini yaitu:
1. Data artikel memiliki jumlah 75 dokumen dimana dibatasi sumber yang
berasal dari majalah Djaka Lodhang, Praba, dan Mekarsari yang memiliki tiga kelompok topik, yaitu ekonomi, kesehatan, dan pendidikan.
2. Pengelompokan artikel Bahasa Jawa dilakukan secara manual dan belum
melibatkan pakar atau ahli di bidang Bahasa Jawa.
3. Artikel menggunakan Bahasa Jawa.
4. Data artikel yang digunakan diubah dalam bentuk dokumen berekstensi
.txt.
5. Pengelompokan data artikel menggunakan metode K Means dimana
centroid awal ditentukan dengan metode Hierarichal Clustering (Single Lingkage).
(21)
4 1.4 Tujuan
Penelitian ini diharapkan dapat :
1. Mengetahui kelompok dari artikel dan dapat membantu untuk
mengetahui jenis topik artikel pada dokumen berbahasa Jawa.
2. Mengukur akurasi dari metode Hierarichal K Means pada
pengelompokan dokumen berbahasa Jawa.
1.5 Metodologi Penelitian
Metodologi penelitian yang digunakan dalam penelitian ini adalah studi kasus dengan langkah-langkah sebagai berikut :
1. Studi Pustaka
Studi pustaka bertujuan untuk memberikan pengetahuan tentang hal-hal yang berkaitan dengan pengelompokan dokumen. Studi pustaka dilakukan dengan mempelajari buku referensi, jurnal dan artikel yang
berkaitan dengan pengelompokan dokumen teks, metode Hierarchical K
Means.
2. Pengumpulan Data
Pada tahap ini dilakukan pencarian dan pengumpulan data. Data
didapat dari majalah berbahasa Jawa Jaka Lodang, Mekarsaridan majalah
Praba.
3. Perancangan
(22)
5
4. Pembuatan Sistem
Berdasarkan hasil analisis dan perancangan sistem, maka tahapan selanjutnya adalah membuat sistem yang akan digunakan.
5. Implementasi dan Pengujian
Implementasi sistem dengan cara menjalankan sistem yang telah dibuat dan dilakukan pengujian dengan menampilkan pengelompokan dokumen teks dalam Bahasa Jawa untuk mengetahui pengklasifikasiannya.
6. Evaluasi
Menganalisis hasil implementasi dan membuat kesimpulan terhadap penelitian yang telah dikerjakan.
1.6 Sistematika Penulisan
Sistematika penulisan yang akan digunakan adalah sebagai berikut : BAB I PENDAHULUAN
Bab ini akan menjelaskan latar belakang, perumusan masalah, batasan masalah, tujuan penelitian, manfaat penelitian, dan sistematika penulisan. BAB II DASAR TEORI
Bab ini akan menjelaskan dasar – dasar teori yang akan digunakan
sebagai landasan utama penelitian dan pembuatan sistem. BAB III METODOLOGI
Bab ini membahas tentang teknik pengambilan, proses, hingga output sistem.
(23)
6 BAB IV IMPLEMENTASI DAN ANALISIS HASIL
Bab ini berisi tentang implementasi berdasarkan metodologi yang telah dipaparkan di bab sebelumnya.
BAB V KESIMPULAN DAN SARAN
Bab ini berisi tentang kesimpulan dan saran yang diberikan untuk perbaikan sistem sehingga menjadi lebih baik dan bermanfaat.
(24)
7
2.
BAB II
LANDASAN TEORI
2.1 Information Retrieval
Information Retrieval merupakan sekumpulan algoritma dan teknologi untuk melakukan pemrosesan, penyimpanan, dan menemukan kembali informasi (tertstruktur) pada suatu koleksi data yang besar (Manning, 2008). Data yang digunakan dapat berupa teks, tabel, gambar maupun video. Sistem IR yang baik memungkinkan pengguna menentukan secara cepat dan akurat apakah isi dari dokumen yang diterima memenuhi kebutuhannya.
2.1.1 Arsitektur Information Retrieval 2.1.1.1 Proses Retrieval
Proses information retrieval secara garis besar digambarkan dalam
(25)
8
Gambar 2.1 Proses Information Retrieval (Manning, 2008)
Secara detail, penjelasan mengenai arsitektur information retrieval terdiri dari beberapa langkah, yaitu :
1. Langkah pertama dalam proses retrieval adalah merancang dan
memodelkan bentuk dari data yang akan digunakan untuk
keperluan informationretrieval.
• Penentuan jenis dokumen yang akan digunakan (Semi Structured dan Unstructured)
Semi–structured (dokumen yang memiliki struktur tree, misalnya dokumen XML) biasanya memberikan tag tertentu pada term
(26)
9
Unstructured (dokumen yang tidak memiliki pola, misalnya artikel atau paragraf) proses ini akan dilewati dan term pada dokumen akan dibiarkan tanpa imbuhan tag.
• Operasi dasar yang akan dilakukan terhadap text pada isi dokumen.
• Sistem akan membentuk indeks dari text.
2. Indeks merupakan bagian yang sangat kritikal karena akan berpengaruh pada proses pencarian yang cepat dalam volume data yang sangat besar. Struktur indeks dapat berbeda-beda, namun
yang paling popular untuk digunakan adalah invertedindex.
3. Ketika document data text selesai dibentuk, maka user sudah
dapat melakukan pencarian. Langkah-langkah yang harus dilakukan pada pencarian adalah sebagai berikut :
Pada suatu kebutuhan pencarian data atau kebutuhan
informasi pengguna akan merepresentasikan kebutuhan
tersebut dengan menggunakan query.
Query Operation akan dilakukan setelah user menginput query.
Proses searching pada query akan menghasilkan retrieved
(27)
10
Sebelum data dikembalikan ke user, dokumen yang
di-retrieved akan diranking berdasarkan kedekatan dokumen
dengan query.
2.1.1.2 Text Operation
Text Operation berperan penting dalam proses information retrieval, karena seluruh proses yang berhubungan dengan penggalian
informasi dari sumber dokumen ataupun teks dilakukan pada proses text
operation. Textoperation memilki beberapa langkah yang dapat dilakukan
di dalam sebuah sistem Information Retrieval, berikut adalah
langkah-langkah pada textoperatrion:
Tokenisasi
Penghilangan Stop-word
Stemming
Indexing2.1.1.2.1 Tokenization
Tokenisasi merupakan proses pemenggalan kata dalam suatu
dokumen menjadi potongan – potongan kata yang berdiri sendiri (token).
Proses ini juga akan menghilangkan tanda baca atau karakter yang melekat pada kata tersebut dan semua kata menjadi huruf kecil (Manning, 2008). Contoh tokenisasi :
• Input :Friends, Romans, Countrymen, Lend, Me, Your, Eyes
(28)
11
Terkadang token dapat dikatakan juga sebagai term atau kata. Pemotongan
kumpulan karakter biasanya berdasarkan karakter spasi, namun beberapa permasalahan yang terjadi dalam proses tokenisasi yaitu terdapat beberapa kata yang akan berbeda arti bila dipotong berdasarkan spasi seperti San Fransisco akan memiliki arti yang berbeda bila dipotong menjadi San dan
Fransisco. Setiap dokumen dan query direpresentasikan dengan model
bag-of-words, yaitu model yang mengabaikan urutan dari kata – kata dan struktur yang ada di dalam dokumen. Dokumen diubah menjadi sebuah
wadah yang berisi kata – kata yang independen.
2.1.1.2.2 Penghilangan Stop Word
Stop-word didefinisikan sebagai term yang tidak berhubungan (non-relevant) dengan subjek utama dari data meskipun kata tersebut
sering muncul di dalam dokumen. Penghilangan stop-word tidak bersifat
wajib pada beberapa desain dari modern information retrieval, dimana
memliki cara sendiri untuk menyelesaikan masalah kata-kata yang sering
digunakan dengan menggunakan data statistik. Contoh stop-word dalam
Bahasa Inggris adalah : a, an, the, this, that, these, those, her, his, its, my,
our, their, your, all, few, many, several, some, every, for, and, nor, bit, or, yet, so, also, after, although, if, unless, because, on, beneath, over, of, during, beside, dan etc. Contoh stop-word dalam bahasa Indonesia : yang, juga, dari, dia, kami, kamu, aku, saya, ini, itu, atau, dan, tersebut, pada, dengan, adalah, yaitu, ke, tak, tidak, di, pada, jika, maka, ada, pun, lain, saja, hanya, namun, seperti, kemudian, dan dll.
(29)
12 Stop-word juga bisa dilakukan dengan memotong kata berdasarkan
distribusi kata (Zipf Distrubution). Zipf Distrubution merupakan
pembagian/distribusi frekuensi kata, dapat digambarkan seperti gambar 2.2. Pada tahap ini dilakukan pemotongan kata yang memiliki frekuensi
sangat tinggi maupun rendah, dengan demikian dapat dikatakan Zipf
Distribution dapat memotong batas kata yang optimum untuk memberikan
ciri atau key word dari suatu dokumen.
Gambar 2.2 Distribusi Zipf (Manning, 2008)
2.1.1.2.3 Stemming
Sebuah kata kerja dalam dokumen sering kali memiliki banyak bentuk atau tata bahasa yang berbeda, untuk mengatasinya dilakukan stemming. Tujuan akhir dari stemming adalah mereduksi kata menjadi kata dasar, proses ini dilakukan dengan pemotongan akhiran dan awalan kata.
Hasil dari langkah stemming diperoleh kelompok kata yang mempunyai
makna serupa tetapi berbeda wujud sintaktis satu dengan lainnya. Kelompok tersebut dapat direpresentasikan oleh satu kata tertentu. Meskipun demikian stemming dan lemmatisasi memiliki perbedaan dalam
(30)
13
cara kerjanya. Stemming melakukan proses pemotongan akhiran dan
awalan untuk mencapai tujuan tersebut, sedangkan lemmatisasi melihat penggunaan kata kerja serta analisis morfologi terlebih dahulu sebelum melakukan pemotongan, hasil dari lemmatisasi biasa disebut dengan
lemma. Misalkan sebuah kata saw, stemming hanya akan mengembalikan
kata see, sedangkan lemmatisasi akan memotongnya ke bentuk see atau
saw tergantung pada penggunaan katanya sebagai verb atau noun. Setiap
bahasa tentunya memiliki norma stemming yang berbeda, maka tahap
stemming untuk Bahasa Jawa tentunya memiliki proses yang berbeda
(Ledy Agusta, 2009), berikut adalah langkah stemming untuk Bahasa
Jawa:
2.1.1.2.3.1 Aturan / Rule Stemming
Sebelum membuat aturan stemming untuk bahasa Jawa, diuraikan
terlebih dahulu penggunaan simbol-simbol dalam membuat stemmerrule
(Widjono, dkk, 2011) :
1. Aturan substitusi/penghapusan menggunakan tanda =>.
ny =>‖‖ (ny dihapus) ny => s (ny diganti s)
2. Simbol <> digunakan untuk menyatakan tingkat affix yang mempengaruhi
urutan pengecekan di algoritma stemming. Rule yang digunakan adalah
(31)
14
Tabel 2.1 Rule untuk Suffix
SUFFIX
<1> e=>"",n=>"",a=>"",i=>"",ing=>"", ku=>"",mu=>""
<2> ke=>"", ki=>"",wa=>"", ya=>"",na=>"",ne=>"",en=>"",an=>"",ni=>"",nira=>"", ipun=>"", on=>"u", ning=>""
<3> ake=>"", en=>"i", kna=>"n", kno=>"n", ana=>"", ono=>"", ane=>"", kne=>"", nan=>"", yan=>"", nipun=>"", oni=>"u", eni=>"i"
<4> kake=>"n", ken=>"" ,kke=>"",nana=>"",nono=>"", nane=>"", nen=>"",kna=>"",kno=>"", ekne=>"i", onan=>"u",enan=>"i"
<5> kake=>"",kken=>"",aken=>"",kke=>"n",enana=>"i",enono=>"i",onen=>"u",enen=>"i",onana=> "u",onono=>"u", ekna=>"i",ekno=>"i",okno=>"u",okna=>"u"
<6> ekken=>"i",kaken=>"n",okken=>"u",ekake=>"i",ekke=>"i",okake=>"u",okke=>"u", kaken=>"", kken=>"n"
<7> ekaken=>"i",okaken=>"u"
Tabel 2.2 Rule untuk Prefix
PREFIX
<1> dipun=>"",peng=>"",peny=>"",pem=>"",pam=>"",pany=>"",pra=>"",kuma=>"",kapi=>"", bok=>"",mbok=>"",dak=>"",tak=>"",kok=>"",tok=>"",ing=>"",ang=>"",any=>"", am=>"", sak=>"",
se=>"",su=>"",mang=>"",meng=>"",nge=>"",nya=>"",pi=>"",ge=>"",ke=>"",u=>"", po=>"u",ke=>"u"
<2> mer=>"",mra=>"",mi=>"",sa=>"",ku=>"",an=>"",ka=>"",ny=>"s",ng=>"k",di=>"",peng=>" k",pang=>"k",pany=>"c", pam=>"p",ke=>"i",mang=>"k",meng=>"k"
(32)
15
<4> n=>"t", pan=>"s", pen=>"s",man=>"s",men=>"s" <5> pan=>"",pen=>"",man=>"t",men=>"t",n=>"" <6> pa=>"",pe=>"",man=>"",men=>""
<7> p=>"",ma=>"",me=>"" <8> m=>"w"
<9> m=>"p" <10> m=>""
Tabel 2.3 Rule untuk Infix
INFIX
<1> gum=>"b",gem=>"b",kum=>"p",kem=>"p"
<2> kum=>"w", kem=>‖w‖
2.1.1.2.3.2 Algoritma Stemming
Algoritma untuk melakukan proses stemming terhadap kata tunggal atau duplikasi.
1. Kata berimbuhan adalah word. Kata sebagai hasil adalah stemW
2. Cek jumlah karakter word, jika < 2. Keluar.
3. Jika word mengandung ―-―, maka pecah kata berdasar ―-― menjadi w1
dan w2. Dan lakukan langkah 4-13
4. w11 = w1 tanpa vokal dan w21 = w2 tanpa vokal.
5. Jika w11 = w21 dan panjang w1=w2 maka lakukan langkah 6-8
6. Jika w2 ada di kamus maka stemW=w2 dan keluar.
(33)
16
8. Jika w22 ada di kamus maka stemW=w22, jika tidak
stemW=w1-w2 dan keluar.
9. Jika w11 != w21, lakukan langkah 10-13
10.ws11=hilangkan imbuhan(w1) dan ws21 = hilangkan
imbuhan(w2).
11.Cek ws21 di kamus, jika ada maka stemW=ws21 dan
keluar.
12.Cek ws11 di kamus, jika ada maka stemW=ws11 dan
keluar.
13.Jika tidak maka stemW=ws11-ws21 dan keluar.
14.stemW = hilangkan imbuhan(stemW). Cek stemW di dictionary. Jika
ada stemW dikembalikan dan keluar.
Algoritma untuk menghilangkan afiks pada kata berimbuhan.
1. Kata yang akan dihilangkan imbuhan adalah word.
2. ws1=hapus suffix (word). Cek di dictionary. Jika ada kembalikan kata.
3. ws1s2=hapus suffix (ws1). Cek di dictionary. Jika ada kembalikan
kata.
4. ws1i1=hapus infix (ws1). Cek di dictionary. Jika ada kembalikan kata.
5. dws1= pengulangan parsial (ws1). Cek di dictionary. Jika ada
kembalikan kata.
6. dws1s2= pengulangan parsial (ws1s2). Cek di dictionary. Jika ada
kembalikan kata.
(34)
17
8. dwp1= pengulangan parsial (wp1). Cek di dictionary. Jika ada
kembalikan kata.
9. wp1s1=hapus suffix(wp1). Cek di dictionary. Jika ada kembalikan
kata.
10.dwp1s1= pengulangan parsial (wp1s1). Cek di dictionary. Jika ada
kembalikan kata.
11.wp1s1s2=hapus suffix (wp1s1). Cek di dictionary. Jika ada
kembalikan kata.
12.wp1p2=hapus prefix (wp1). Cek di dictionary. Jika ada kembalikan
kata.
13.wp1p2s1=hapus suffix (wp1p2). Cek di dictionary. Jika ada
kembalikan kata.
14.wp1p2s1s2=hapus suffix (wp1p2s1). Cek di dictionary. Jika ada
kembalikan kata.
15.wi1=hapus infix (word). Cek di dictionary. Jika ada kembalikan kata.
16.wi1s1=hapus suffix (wi1). Cek di dictionary. Jika ada kembalikan kata.
2.1.1.3 Indexing
Proses indexing adalah proses yang merepresentasikan document
collection ke dalam bentuk tertentu untuk memudahkan dan mempercepat
proses pencarian dokumen yang relevan. Pembuatan index dari document
collection adalah tugas pokok pada tahapan pre-processing di dalam information retrieval. Efektitifitas dan efisiensi information retrieval dipengaruhi oleh kualitas indeks-nya. Pengindeksan membedakan
(35)
18 dokumen satu dengan dokumen yang lain yang berada di dalam satu collection. Indeks dengan ukuran yang kecil dapat memberikan hasil yang kurang baik dan bisa saja beberapa dokumen yang seharusnya relevan terabaikan. Sementara indeks dengan ukuran yang besar memungkinkan ditemukannya dokumen yang tidak relevan dan menurunkan kecepatan
pencarian. Pembuatan inverted index harus melibatkan konsep linguistic
processing yang bertujuan mengekstrak term-term penting dari dokumen
yang direpresentasikan sebagai bag-of-words.
Pada tahap indexing, dapat dilakukam pengindeksan terhadap term
frekuensi (tf), idf, tf-idf, atau fitur bobot tf-idf dapat dihitung sebagai berikut: ) df / ( log ) tf log 1 (
w , 10
,j i j N i
i (2.1)
df i = frekuensi dokumen dari kata i = jumlah dokumen yang berisi kata i idfi = inverse document frequency dari kata i, = log10 (N/ df i)
(N: jumlah total dokumen).
W=weight (bobot kata)
Contoh pembobotan kata pada dokumen:
Diberikan dokumen berisi kata A,B,C dengan frekuensi : A(3), B(2), C(1)
Misal, ada koleksi berisi 10,000 dokumen dan frekuensi kata A, B, C untuk seluruh dokumen:
(36)
19 A(50), B(1300), C(250)
Maka :
A: tf = 3; idf = log(10000/50) = 2.3; tf-idf = 6.9 B: tf = 2; idf = log(10000/1300) = 0.88;tf-idf = 1.77 C: tf = 1; idf = log(10000/250) = 1.6; tf-idf = 1.6 2.2 Clustering
2.2. K Means Clustering
K Means clustering merupakan metode yang populer digunakan untuk mendapatkan deskripsi dari sekumpulan data dengan cara mengungkapkan kecenderungan setiap individu data untuk berkelompok dengan individu-individu data lainnya. Kecenderungan pengelompokan tersebut didasarkan pada kemiripan karakteristik tiap individu data yang ada. Ide dasar dari metode ini adalah menemukan pusat dari setiap kelompok data yang mungkin ada untuk kemudian mengelompokkan setiap data individu ke dalam salah satu dari kelompok-kelompok tersebut berdasarkan jaraknya (Turban dkk, 2005). Semakin dekat jarak data individual, sebut saja X1 dengan salah satu pusat dari kelompok yang ada , sebut saja A, maka semakin jelas bahwa X1 tersebut merupakan anggota dari kelompok yang berpusat di A dan semakin jelas pula bahwa X1 bukan anggota dari kelompok-kelompok yang lainnya (ilustrasi dapat dilihat pada gambar 1). Secara kuantitatif hal ini ditunjukkan melalui fakta bahwa d1A yaitu jarak dari X1 ke A mempunyai nilai yang paling kecil jika dibandingankan dengan d1B dan d1C.
(37)
20 Gambar 2.3 Ilustrasi Penentuan Keanggotaan Kelompok Berdasarkan Jarak
(Turban dkk, 2005)
Cara untuk menemukan pusat yang paling sesuai sebagai upaya merepresentasikan posisi dari sebuah kelompok data terhadap kelompok data yang lainnya dilakukan sebuah proses perulangan. Proses perulangan ini dimulai dengan menentukan secara sembarang posisi dari pusat-pusat kelompok yang telah ditetapkan. Selanjutnya ditentukan keanggotaan setiap individu data berdasarkan jarak terpendek terhadap pusat-pusat tersebut. Pada iterasi kedua dan seterusnya dilakukan pembaharuan posisi pusat untuk semua kelompok. Langkah selanjutnya dilakukan pembaharuan keanggotaan untuk setiap kelompok.
2.2.1 Langkah K Means Clustering
Metode pengelompokkan K Means pada dasarnya melakukan dua proses yakni
(38)
tiap-21
tiap cluster dan proses pencarian anggota dari tiap-tiap cluster. Proses Algoritma
K Means sebagai berikut :
1. Tentukan K sebagai jumlah cluster yang ingin dibentuk.
2. Bangkitkan K centroid (titik pusat cluster) awal secara random.
3. Hitung jarak setiap data ke masing-masing centroid.
4. Setiap data memilih centroid yang terdekat.
5. Tentukan posisi centroid baru dengan cara menghitung nilai rata-rata
dari data-data yang terletak pada centroid yang sama.
6. Kembali ke langkah 3 jika posisi centroid baru kurang dari centroids
lama.
Berdasarkan cara kerjanya Algoritma K Means memiliki karakteristik sebagai
berikut :
1. K Means sangat cepat dalam proses clustering.
2. K Means sangat sensitif dalam proses pembangkitan centroid awal secara random.
3. Memungkinkan suatu cluster tidak mempunyai anggota.
4. Hasil clustering dengan K Means bersifat tidak unik.
Proses pengelompokkan data ke dalam suatu cluster dapat dilakukan dengan cara
menghitung jarak terdekat dari suatu data ke sebuah titik centroid. Rumus untuk
menghitung jarak tersebut menggunakan euclidean matrix:
(2.3)
(39)
22
g = 2, untuk menghitung jarak euclidean
xi , xj adalah dua buah data yang akan dihitung jaraknya
p = dimensi dari sebuah data
Pembaharuan suatu titik centroid dapat dilakukan dengan rumus berikut:
(2.4)
dimana:
µk = titik centroid dari cluster ke-K
Nk = banyaknya data pada cluster ke-K
xq = data ke-q pada cluster ke-K
2.2.2 Hierarchical Clustering
Metode agglomerative hierarchical clustering adalah metode yang
menggunakan strategi disain bottom-up yang dimulai dengan meletakkan setiap
obyek sebagai sebuah cluster tersendiri (atomic cluster) dan selanjutnya
menggabungkan atomic cluster – atomic cluster tersebut menjadi cluster yang
lebih besar dan lebih besar lagi sampai akhirnya semua obyek menyatu dalam
sebuah cluster atau proses berhenti jika telah mencapai batasan kondisi tertentu
(Arai ,2007).
Sebelum dibentuknya sebuah cluster perlu melalui langkah menghitung
(40)
23
banyak digunakan adalah dengan perhitungan euclidean distance. Euclidean
distance sendiri adalah:
√ | | | | | | | | (2.5)
dapat disederhanakan dengan:
√∑ (2.6)
Keterangan:
adalah jumlah atribut atau dimensi
dan adalah data
Hierarchical clustering memiliki beberapa cara untuk perhitungan jarak
antar cluster, di antaranya adalah single linkage, average linkage, dan complete
linkage. Berikut ini adalah pendevinisian perhitungan jarak dengan cara single linkage:
Perhitungan dengan teknik single linkage adalah untuk mencari jarak minimum
antar cluster. Dengan single linkage jarak antara dua cluster didevinisikan sebagai
berikut:
(2.7)
Keterangan:
adalah jarak antara data dan y dari masing-masing cluster A dan B.
Berdasarkan perhitungan rumus di atas akan didapatkan jarak antar cluster. Jarak
minimum antar data yang ditemukan pertama akan menjadi cluster yang pertama.
Perhitungan selanjutnya juga akan dilakukan untuk pembentukan cluster selanjutnya. Berdasarkan hasil perhitungan akan diperoleh dendrogram.
(41)
24
J
a
r
a
k
0 1 2
0,5 1,5
a b c e d f D a t a
Gambar 2.4 Dendrogram
Penggunaan metode hierarchical clustering untuk mengelompokkan n
obyek data adalah sebagai berikut : 1. Hitung Matrik Jarak antar data.
2. Ulangi langkah 3 dan 4 higga hanya satu kelompok yang tersisa.
3. Gabungkan dua kelompok terdekat berdasarkan parameter kedekatan yang ditentukan.
4. Perbarui Matrik Jarak antar data untuk merepresentasikan kedekatan di antara kelompok baru dan kelompok yang masih tersisa.
5. Selesai.
Sebagai contoh, terdapat beberapa data yang dapat dilihat pada tabel 2.4 di
bawah ini. Data akan dibentuk dengan menggunakan hierarchical clustering
dengan perhitungan kemiripan obyek data menggunakan euclidean distance dan
(42)
25
Tabel 2.4Contoh Data Perhitungan hierarchical clustering
Data X Y A 1 1 B 4 1 C 1 2 D 3 4 E 5 4
Dihitung dengan euclidean distance setiap obyek data tersebut dihitung
jaraknya sebagai berikut:
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
√ | | | |
Berdasarkan perhitungan tersebut dapat dibentuk matriks jarak seperti seperti pada tabel 2.5.
(43)
26 Tabel 2.5 Matriks jarak
A B C D E
a 0 3 1 3.61 5
b 3 0 3.16 3.16 3.16
c 1 3.16 0 2.83 4.47
d 3.61 3.16 2.83 0 2
e 5 3.16 4.47 2 0
Single linkage
Selanjutnya dari tabel 2.5 dapat dilihat jarak obyek data yang paling dekat,
yaitu a dan c, berjarak 1. Kedua obyek data ini menjadi satu cluster pertama.
Kemudian untuk menemukan cluster berikutnya dicari jarak antar obyek data dari
sisa yang ada (b, d, e) dan berada paling dekat dengan cluster (ac). Untuk
pencarian jarak ini pertama digunakan single linkage.
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster a dan c dihapus dan ditambahkan baris dan kolom untuk cluster
(44)
27
Tabel 2.6Matriks Jarak Pertama singlelinkage
Ac B d E
Ac 0 3 2.83 4.47
B 0 3.16 3.16
D 0 2
E 0
Berdasar pada matriks jarak kedua (Tabel 2.6), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (de) yang paling dekat, yaitu bernilai 2.
Kemudian dihitung jarak dengan cluster yang tersisa, (ac), dan b.
Kemudian baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster d dan e dihapus dan ditambahkan baris dan kolom untuk cluster
(de), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.7 Matriks Jarak Kedua singlelinkage
Ac b De
Ac 0 3 2.83
B 0 3.16
(45)
28 Berdasar pada matriks jarak ketiga (Tabel 2.7), dipilih kembali jarak
terdekat antar cluster. Ditemukan cluster (acde) yang paling dekat, yaitu bernilai
2.83. Kemudian dihitung jarak dengan cluster yang tersisa, yaitu b.
Langkah selanjutnya yaitu menghapus dan menambahkan baris dan kolom
untuk cluster (acde) baris-baris dan kolom-kolom matriks jarak yang bersesuaian
dengan cluster (ac) dan (de), sehingga matriks jarak menjadi seperti berikut ini:
Tabel 2.8 Matriks Jarak Ketiga singlelinkage
acde B
Acde 0 3
B 0
Proses iterasi perhitungan jarak untuk pembentukan cluster sudah slesai
karena cluster sudah tersisa satu. Jadi cluster (acde) dan (b) digabung menjadi
satu, yaitu cluster (acdeb) dengan jarak terdekat adalah 3. Berikut ini adalah hasil
(46)
29
Gambar 2.5Dendrogram singlelinkage untuk 5 obyek data
2.3 Hierarchical K Means
Menurut eksperimen yang telah dilakukan, metode K Means sudah
digunakan untuk metode pengelompokan data set. Hal itu dapat dibuktikan dengan prosentase eror yang minimal, namun seiring berjalannya waktu,
eksperimen tentang clustering lebih berkembang dengan adanya metode
Hierarichal K Means yang dapat menentukan centroid awal yang akan
digunakan untuk clustering pada metode K Means. Ternyata metode
Hierarichal K Means dapat mengatasi pemilihan centroid secara random yang memikiki tingkat eror lebih besar dan dalam penggunannya dianggap kurang praktis karena harus melakukan beberapa eksperimen dalam menentukan
centroid awal yang tepat. Harapannya dengan diterapkan Hierarichal K Means
dapat meningkatkan akurasi dan menurunkan prosentasi erornya, disebutkan
dalam penelitian, ternyata eror pada metode K Means dengan centroid
random sebesar 32.5236%, sedangkan dengan metode Hierarichal K Means erornya dapat diminimalisir menjadi 29.7753% (Arai ,2007).
(47)
30 Berikut adalah langkah dalam menentukan centoid awal dengan menggunakan hierarchicalK Means :
1. Set X ={xi | i =1, ..., r} i setiap data A, dimana A {ai | i= 1, ..., n} dengan
n-dimensi vektor.
2. Set K sebagai jumlah _ cluster yang telah ditetapkan.
3. Tentukan p sebagai banyaknya perhitungan
4. Set i = 1 sebagai counter awal
5. Terapkan algoritma K Means.
6. Catat hasil centroid hasil Clustering sebagai Ci = {ij | j = 1, ..., K}
7. Tambahkan i = i + 1
8. Ulangi dari langkah 5 saat i <p.
9. Asumsikan C = {Ci | i = 1, ..., p} sebagai satu set data baru, dengan K
sebagai nomor _ cluster yang telah ditetapkan
10.Terapkan algoritma hirarki (singlelinkage)
11.Catat hasil centroid Clustering sebagai D = {di | i = 1, ..., K}
Langkah berikutnya adalah menerapkan D = {di | i = 1, ..., K} sebagai pusat klaster awal untuk K Means. Penggunaan algoritma hirarki untuk
menemukan centroid awal dipilih single linkage, karena single linkage
penerapannya mudah selain itu ternyata tidak ada perbedaan signifikan
dibandingkan dengan average maupun completelinkage (Arai, 2007).
2.3. Evaluasi
Berkaitan dengan evaluasi yang digunakan pada penelitian ini, digunakan dua jenis evaluasi. Evaluasi yang digunakan adalah evaluasi internal dan
(48)
31 eksternal. Evaluasi yang pertama adalah evaluasi internal sistem, dimana
berfungsi untuk mengukur kinerja K Means clustering ini menggunakan Sum
Square Erorr (SSE). Evaluasi bertujuan untuk menilai kualitas cluster yang dibuat. Kinerja sistem yang dievaluasi dengan menghitung nilai akurasi, dari perhitungan akurasi akan diketahui sejauh mana metode K Means dapat mengelompokkan dokumen apa topik artikel Berbahasa Jawa. Semakin kecil nilai
SSE semakin baik hasil cluster yang dibuat.
∑ ∑ || || (2.8)
Keterangan:
adalah jarak data di indeks
adalah rata-rata semua jarak data di cluster
Evaluasi yang diterapkan berikutnya adalah evaluasi yang berkaitan dengan eksternal sistem, yaitu mengukur akurasi dari pengelompokkan dokumen hasil dari internal evaluasi. Langkah yang dilakukan adalah membandingkan
setiap anggota cluster dengan manual pengelompokkan yang sudah dibuat, dalam
hal ini sudah ditentukan pembagian cluster dokumen berdasarkan topik (ekonomi, kesehatan, dan pendidikan), dimana masing-masing kelompok beranggotakan 25 dokumen. Metode pengukuran akurasi eksternal yang digunakan adalah confussion matrix. Tabel matriks konfusi merupakan tabel yang digunakan untuk
menghitung tingkat akurasi setiap cluster, dimana setiap anggota cluster
dibandingkan dengan anggota cluster yang ideal (Prasetyo E, 2012).
(49)
32
3.
BAB III
METODOLOGI PENELITIAN
Berdasar pada landasan teori yang telah disampaikan pada bab kedua di atas, pada bab ini akan membahas metodologi yang akan digunakan pada skripsi ini. Bab ini berisi diagram blok, data, tatap muka pengguna dan evaluasi.
3.1 Data
Data yang digunakan adalah artikel yang bersumber dari majalah berbahasa Jawa Mekarsari, Praba, dan Djaka Lodhang yang terlebih dahulu diubah menjadi dokumen berekstensi .txt . Data yang digunakan berjumlah 75 dokumen, dengan jumlah kata unik yang digunakan 2.358 kata.
3.1.1 Jenis Data
Jenis data yang diambil adalah artikel dari majalah Djaka Lodhang, Praba,
dan Mekarsari diubah ke bentuk dokumen berkestensi .txt. Data yang dipilih,
berasal dari tiga kelompok, yaitu pendidikan, kesehatan, dan ekonomi.
3.2 Teknik Analisis Data
Secara umum, sistem yang akan dibangun dalam penelitian ini adalah sebuah sistem dengan fungsi utama untuk melakukan pengelompokan dokumen berbahasa Jawa. Dokumen yang akan dikelompokkan adalah artikel yang diambil dari majalah berbahasa Jawa yaitu Djaka Lodhang, Praba, dan Mekarsari. Proses
pengelompokan yang digunakan pada sistem ini adalah metode Hierarchical K
Means. Praktiknya, dokumen-dokumen yang akan dikelompokkan dijadikan
(50)
33
diproses oleh sistem melalui proses tokenizing, stemming, indexing, pembobotan,
clustering, percobaan, dan evaluasi. Proses-proses tersebut dapat dilihat pada Gambar 3.1 .
Gambar 3.1Diagram Block Proses Clustering.
Pada Gambar 3.1 dapat diketahui terdapat input data kemudian
dilakukan text operation. Pada proses tersebut didapat dari proses
tokenizing untuk memisah kata atau terms kemudian dilakukan
normalisasi dengan melakukan stopword, stemming, dan pembobotan
data model. Langkah berikutnya adalah dengan melakukan
pengelompokan dengan metode K Means untuk mendapatkan himpunan centroid, dimana proses menghitung jarak dokumen dengan centroid
dilakukan menggunakan euclidean distance. Setelah mendapatkan hasil
Input Data Tokenizing Stemming StopWord Indexing IR Hierarchical (Single Linkage) K Means K Means Hiearchical Kmeans Hasil Cluster Output SSE Akurasi Confusion Matrix
(51)
34 himpunan centroid, langkah selanjutnya adalah melakukan langkah hierarchical single linkage untuk mendapatkan centroid baru sejumlah tiga buah (di rata-rata). Hal ini dilakukan untuk mendapatkan centroid lebih tepat dibandingkan pemilihan centroid random. Langkah berikutnya yaitu memproses pengelompokan dengan metode K Means dengan
centroid baru. Hasil dari K Means clustering dievaluasi dengan SSE guna
mendapatkan error minimum dan menemukan pembagian cluster yang
baik. SSE yang minimum akan membantu dalam dalam mengevaluasi eksternal sistem, yaitu dengan menguji pengelompokan anggota kelompok dari sistem yang kemudian dibandingkan dengan manual cluster, dimana berisi anggota cluster yang ideal.
3.2.1 Text Operation
3.2.1.1 Information Retrieval (Tokenization,Stop Word, Steming, Indexing)
Pada tahap information retrieval dilakukan langkah untuk mencapai calon data
yang akan dikelompokkan. Langkah-langkah yang dilakukan adalah: 1. Tokenization
Proses yang dilakukan pada tahap ini adalah memenggal kata-kata yang ada pada dokumen menjadi kata-kata yang berdiri sendiri.
2. Stop Word
Proses yang dilakukan pada tahap ini adalah menghilangkan kata yang tidak memiliki makna (misal: kata hubung dan kata depan), pada tahap ini
(52)
35
juga diterapkan Zipf Distrubution untuk menemukan range frekuensi kata
yang optimum untuk menemukan key word dari suatu dokumen.
3. Steming
Pada tahap ini setiap hasil kata yang sudah tereduksi dari proses stop word
dilakukan penghapusan kata menjadi kata dasar yang kemudia dicocokkan ke kamus untuk menghasilkan kata unik.
4. Indexing
Pada tahap ini setiap kata unik diberi bobot kata dengan menggunakan
rumus weighting (tf.idf) seperti yang sudah dijelaskan di bab sebelumnya.
Gambar 3.2Pembobotan tf-idf
Tabel 3.1 Pembobotan
PEMBOBOTAN IDF TF IDF w=tf*idf
Pergok 1 1,77815125 1,77815125
Wong 1 1,77815125 1,77815125
Nandhang 1 1,77815125 1,77815125
Racun 2 1,477121255 1,477121255
Dhahar 2 1,477121255 2,954242509
*log yang digunakan basis 10
(53)
36 wong: tf = 1; idf = log(60/1) = 1,77815125; W = 1,77815125 nandhang: tf = 1; idf = log(60/1) = 1,77815125; W = 1,77815125 kemudian hasil pembobotan kata pada dokumen disimpan pada matriks calonData sebagai berikut:
c
dimana w merupakan bobot dari term i sepanjang jumlah kata unik (horizontal) dan yang vertikal sepanjang/sejumlah dokumen.
3.2.1.2 K Means (pertama)
Langkah setelah dilakukannya pembobotan adalah melakukan
pengelompokan, pengelompokan yang digunakan adalah
menggunakan K Means untuk mendapatkan himpunan centroid. Hal
ini diawali dengan memilih centroid awal = 3 centroid, dipilih tiga
centroid dikarenakan sudah dibatasi dengan pengelompokan topik
yang diasumsikan menjadi tiga kelompok/cluster, yaitu ekonomi,
kesehatan, dan pendidikan. K Means ini dilakukan sebanyak jumlah
computation/jumlah dilakukannya metode K Means (c=3), computation 1 menghasilkan tiga centroid random yang
digunakan{c1,c3,c5}, computation 2 menghasilkan tiga centroid
random yang digunakan {c1,c4,c5}, dan computation 3 menghasilkan
tiga centroidrandom yang digunakan ={c2,c4,c6}. Berdasarkan proses
(54)
37
Kemudian dilanjutkan dengan menghitung euclidean distance untuk
menghitung jarak masing-masing centroid ke setiap dokumen.
Contoh menghitung euclidean distance dari dokumen 1 ke
dokumen 1 dan dokumen 1 ke dokumen 2:
Tabel 3.2 Perhitungan Jarak antara Dokumen dengan Centroid
Pergok(w) Sum
doc1 1,778151 1,778151
doc2 0 0
Lakukan untuk semua himpunan centroid dan kemudian lanjutkan dengan proses hierarchical single linkage.
W2 sum
doc1 3,161822 3,161822
doc2 0 0
wdc1 Sum
doc1 3,161822 3,161822
doc2 0 0
1 3,161822 x 3,161822 3,161822
q
d
q
d
j j
0 0 x 3,161822 0 q
d
q
d
j j
(55)
38 3.2.1.3 Hierarchical Centroid awal
Himpunan centroid yang diperoleh dari langkah sebelumnya digunakan
dalam proses hierarchical single linkage. Hal pertama yang dilakukan adalah
menghitung jarak minimum antar centroid dengan rumus:
(3.1) Langkah berikutnya yaitu menggabungkan dua kelompok terdekat berdasarkan jaraknya.
Gambar 3.3 Langkah Menghitung Jarak Minimum pada single linkage
Langkah berikutnya yaitu memperbarui matrik jarak antar data untuk merepresentasikan kedekatan di antara kelompok baru dan kelompok yang masih tersisa.
(56)
39 Gambar 3.4 Langkah Menghitung Menggabungkan Kelompok yang
Berdekatan
Berdasarkan proses menggabungkan kelompok terdekat yang sudah dilakukan didapatkah dendrogram sebagai berikut:
(57)
40 Tahap ini bertujuan untuk mendapatkan tiga buah cluster, maka bisa dipotong pada dendogram, sehingga diperoleh pusat cluster sebagai berikut:
Tabel 3.3 Hasil Himpunan Cluster Berdasarkan Pemotongan
Langkah di atas merupakan langkah pemilihan centroid dari himpundan centroid
hasil single linkage.Centroid yang dipilih adalah:
C1 adalah rata-rata dari feature dari indeks 1 dan 2 C2 adalah rata-rata dari feature dari indeks 3,4, dan 5
C3 adalah rata-rata dari feature dari indeks 6 (dapat langsung diambil indeks 6).
3.2.1.4 K Means (kedua)
Langkah ini memerlukan centroid baru yang didapat dari proses sebelumnya, maka ditentukan centroid baru sebagai berikut: c1, c2, dan c3.
Gunakan rumus euclidean distance untuk menghitung jarah terdekat dokumen
dengan centroid awal, misa dokumen 1 dan 2 dari centroid 1(dokumen1)
c1 c2 c3
Ab Cde f
1,2 3,4,5 6
1 3,161822 x 3,161822 3,161822
q
d
q
d
j j
0 0 x 3,161822 0 q
d
q
d
j j
(58)
41 Tabel 3.4 Hasil iterasi K Means yang Sudah Stabil
Lakukan langkah K Means sampai anggota setiap centroid tidak terjadi peubahan,
dan ternyata iterasi berhenti di iterasi 1 (2 kali iterasi), sehingga didapatkan
pengelompokan dengan anggota cluster sebagai berikut:
Kelompok 1 : doc 1 dan 2 Kelompok 2 : doc 3,4, dan 5 Kelompok 3 : doc 6
3.2.1.5 Output
Output yang diharapkan pada penelitian ini adalah menampilkan pembagian
cluster, sehingga secara visual dapat dilihat hasil pembagian cluster-nya
3.2.1.6 Penghitungan Evaluasi
Penelitian ini menggunakan beberapa prosedur uji coba, di antaranya
variasi jenis range kata unik yang digunakan dan variasi computation(c) yang
merupakan jumlah dilakukan K Means pertama. Berdasarkan prosedur uji coba di
(59)
-42
nya. SSE dengan nilai yang paling rendah mengindikasikan bahwa cluster yang
terbentuk adalah yang paling baik. Nilai SSE terkecil dipilih sebagai pedoman pengukuran akurasi eksternal sistem, yaitu pencocokan hasil pengelompokan dokumen dengan dokumen yang sebenarnya. Pada pengujian eksternal sistem ini
dapat digunakan confussion matrix sebagai metodenya.
3.3 Desain User Interface
Gambar 3.6 Tampilan Menu Utama
3.4 Spesifikasi Software dan Hardware
Untuk proses membuat sistem dan data digunakan software dan hardware
sebagai berikut : 1. Software
a) Sistem Operasi : Windows 7 Ultimate 32-bit
b) Bahasa Pemprograman : Matlab version 8.0.0.783 (R2012b)
2. Hardware
a) Processor : Intel(R) Core(TM) i5-2430M CPU @ 2.40GHz
b) Memory : 2 GB
c) Hardisk : 500 GB
button
button
Tabel Hasil
Pengujian
akurasi
(60)
43
4.
BAB IV
IMPLEMENTASI DAN ANALISIS HASIL
Berdasarkan metodologi yang dijelaskan pada bab sebelumnya, maka penelitian ini dapat diimplementasikan dengan langkah-langkah sebagai berikut: 4.1 Implementasi
Implementasi yang diterapkan pada bab ini merupakan penerapan metodologi yang telah dipaparkan pada bab sebelumnya. Implementasi mencakup
proses information retrieval, pengelompokan data dengan hierarchical K Means,
hinga pengukuran akurasi dari sistem dengan menggunakan SSE dan confussion
matrix. Pada tahap selanjutnya diimplementasi dengan ujicoba dan kemudian
dianalisis. Analisis implementasi meliputi user interface dan pengolahan data.
4.1.1 User Interface
Pembuatan user interface sistem pengelompokan artikel berbahasa Jawa
menggunakan sarana yang diberikan oleh Matlab version 8.0.0.783 (R2012b).
Desain user interface yang telah dipaparkan pada bab sebelumnya
diimplementasikan dan digunakan sebagai sarana untuk melakukan text operation
sampai untuk mengetahui akurasi dari pengelompokan data dengan Hierarchical
K Means. Sistem dapat langsung menampilkan hasil keseluruhan proses. User interface tersimpan dengan file yang bernama GUI.m dan GUI.fig (lampiran 1 dan 2). Gambar 4.1 dan 4.2 adalah contoh tampilan keseluruhan sistem yang telah dibentuk.
(61)
44
Gambar 4.1 Implementasi User Interface Awal (sebelum proses dilakukan)
Gambar 4.2 Implementasi User Interface (setelah dilakukan proses)
Berdasarkan gambar di atas dapat dilihat bahwa pengguna hanya perlu
menekan button Preprocessing untuk menghasilkan calon data yang siap untuk
dilakukan proses pengelompokan. Proses pengelompokan dilakukan setelah
pengguna menekan button Proses, setelah button Proses ditekan, maka akan
(62)
45 internal maupun eksternal. Berikut adalah penjelasan lebih lengkapnya mengenai user interface yang dibuat:
Proses input data sengaja tidak ditampilkan pada user interface karena
data yang digunakan sudah tetap dan menempel pada code program.
Pengguna cukup untuk menekan button preprocessing untuk melakukan
information retrieval pada dokumen dan button proses untuk melakukan proses pengelompokan. Pengguna juga dapat mengetahui proses dari sistem melalui informasi teks iterasi dan melalui message yang memberikan informasi bahwa suatu proses telah dilakukan, dapat dilihat di gambar 4.3 di bawah.
Gambar 4.3 Button Preprocessing dan Button Proses
Hasil proses yang ditampilkan pada sistem ini adalah:
1. Hasil stemming berupa kata unik.
Panel ini berfungsi untuk menampilkan hasil dari yang berupa kata
unik dari seluruh dokumen berdasarkan hasil stemming yang telah
dilakukan dan diurutkan sesuai abjad. Seperti yang dilihat pada gambar 4.4, kolom A menampilkan frekuensi/jumlah dari kata di indeks i, sedangkan kolom Bb menampilkan kata uniknya.
(63)
46 Gambar 4.4 Hasil Kata Unik
2. Hasil dari pengelompokan yang terbaik (nilai SSE minimum)
Panel ini berfungsi untuk menampilkan hasil dari pengelompokan terbaik, terbaik di sini berarti memiliki SSE yang minimum. Karena setiap
proses diuji dengan range dan computation yang berbeda (masing-masing
ada dua jenis) sehingga mengasilkan empat buah indeks yang menyatakan hasil pengelompokan (lihat gambar 4.5). Hasil yang memiliki pengelompokan terbaik ditandai dengan warna untuk memudahkan pengguna. Secara berurutan, labek yang terdapat pada tabel hasil percobaan dijelaskan sebagai berikut:
Iterasi merupakan jumlah computation, yaitu berapa kali
iterasi proses K Means dilakukan (digunakan 2 dan 4).
CutTF_0 adalah batas bawah dari jumlah frekuensi kata
(64)
47
CutTF_1 adalah batas atas dari jumlah frekuensi kata unik
yang digunakan (ditentukan batas atas 90 dan 150).
SSE merupakan hasil evaluasi internal dari
pengelompokkan yang dilakukan.
Cls1 merupakan jumlah dari anggota kelompok 1, begitu
pula dengan Cls2 dan Cls3 yang merupakan jumlah anggota dari kelompok 2 dan 3.
Gambar 4.5 Hasil Pengelompokan Terbaik
3. Hasil dari pembagian anggota cluster yang terbaik
Data dokumen dipetakan berdasarkan pengelompokannya. Pada user interface ini digunakan tabel yang menampung pembagian cluster data awal dengan tabel(lihat gambar 4.6) . Harapannya pengguna dapat dengan mudah mengetahui identitas cluster dari tiap dokumen berdasarkan visualisasinya.
(65)
48
Gambar 4.6 Anggota Cluster dari Pengelompokan Terbaik
4. Centroid terbaik yang digunakan
Centroid terbaik juga ditampilkan agar pengguna bisa mengetahui centroid yang didapat dari hasil single linkage. Gambar 4.7
menampilkan centroid dengan visualisasi tabel yang berisi tiga buah
titik pusat/centroid dimana memiliki feature sepanjang kata unik yang
digunakan untuk proses pengelompokan.
(66)
49
5. Hasil dendrogram dari pemilihan himpunan centroid terbaik
Hasil dendrogram dapat memvisualisasikan himpunan centroid
hasil dari proses K Means (lihatt gambar 4.8). Apabila digambarkan
melalui grafik koornidat (x,y), maka koordinat axis (x) berisi
pemetaan indeks dari centroid dan y adalah jarak dari tiap centroid.
Pertemuan antara garis dendrogram membantu secara visual mengenali dendrogram itu baik atau tidak. Dendrogram yang baik adalah seimbang apabila dilihat secara visual, maka dengan melihatnya saja dapat mengetahui centroid yang dipilih baik atau tidak.
Gambar 4.8 Hasil Himpunan Centroid yang Divisualisasikan dengan
Dendrogram
6. Akurasi berdasarkan pengelompokan terbaik
Panel akurasi dapat dilihat pada gambar 4.9, panel ini berfungsi untuk menampilkan hasil dari evaluasi pengelompokan dokumen secara eksternal yang dinyatakan dalam skala prosentase
(67)
50 7. Message Informasi
Message Box (lihat gambar 4.10) merupakan feedback dari suatu aksi yang dilakukan pengguna, aksi yang dilakukan adalah menekan button proses dan button preprocessing. Message box membantu pengguna dalam mengetahui suatu proses yang dilakukan sistem.
Gambar 4.10 Peringatan/Informasi dari Aksi Menekan Button Preprocessing
dan Proses 4.1.2 Pengolahan Data
Data yang digunakan adalah artikel yang bersumber dari majalah berbahasa Jawa Mekarsari, Praba, dan Djaka Lodhang yang terlebih dahulu diubah menjadi dokumen berekstensi .txt . Data yang digunakan berjumlah 75 dokumen. Data yang diambil dibagi menjadi tiga kelompok yang diasumsikan memiliki topik yang bervarisasi. Berikut adalah gambaran data yang digunakan (lihat gambar 4.11 dan 4.12) :
(68)
51 Gambar 4.11 Jumlah Data Dokumen yang Digunakan
(1)
125
Term Frek Term Frek Term Frek
prakosa 1 sadhar 1 shalat 1
prapat 1 sadulur 1 sila 1
prayitna 1 sae 1 sileg 1
prigel 1 saget 1 silep 1
pringgo 1 sahabat 1 silih 1
prinsip 1 salep 1 simplikasi 1
priyan 1 sanes 1 simulasi 1
profesional 1 sanga 1 sipil 1
pundi 1 sanget 1 sira 1
puput 1 sanggan 1 sirep 1
purba 1 saning 1 sisan 1
purih 1 sanja 1 sisir 1
purwanto 1 santhet 1 siti 1
purwodadi 1 santun 1 sokur 1
purwokerto 1 sarampung 1 sore 1
pusing 1 sareh 1 spirit 1
puspa 1 sareng 1 sponsor 1
putu 1 sareyan 1 srakat 1
quran 1 saring 1 stir 1
radita 1 saru 1 stres 1
rajin 1 sarung 1 study 1
rakaditu 1 satria 1 suara 1
ral 1 satriya 1 sudarinto 1
rama 1 saur 1 sudi 1
ramal 1 segala 1 sudiyatmono 1
ran 1 segara 1 sugata 1
rangke 1 segoro 1 sukisno 1
rantas 1 seka 1 suliantoro 1
ratih 1 sekar 1 suluh 1
rebo 1 sekretariat 1 sumadiyasa 1
sumarni 1 tuhu 1 wisata 1
sumelang 1 tukar 1 wisatawan 1
surya 1 tukul 1 wisik 1
suwargi 1 tumor 1 wulet 1
suwarno 1 tunggang 1 wuruk 1
suwung 1 tunggu 1 yahudi 1
suyamsih 1 tuntas 1 yayasan 1
(2)
126
Term Frek Term Frek Term Frek
syukur 1 tutug 1 ziarah 1
tahrim 1 tutur 1
tala 1 tuwas 1
tamtu 1 tuwo 1
tanduk 1 ubal 1
tanggel 1 ujung 1
tanggenah 1 ulet 1
tanggungjawab 1 ulung 1
tanggungjawabe 1 ulur 1
tar 1 umar 1
tatakrama 1 umat 1
tawang 1 umiyati 1
tawar 1 underan 1
tega 1 undher 1
tegas 1 ungguh 1
tekat 1 untuk 1
tekun 1 unyik 1
teladan 1 upus 1
telah 1 urmat 1
templek 1 uteg 1
tenger 1 uthuk 1
tentang 1 uyuh 1
tera 1 virginia 1
teraphy 1 vital 1
terima 1 wadah 1
thailand 1 wadi 1
thil 1 wairagya 1
tindhak 1 walik 1
titah 1 wanda 1
titip 1 warsito 1
tleram 1 wasita 1
tlusur 1 wawan 1
tombak 1 wekdal 1
topik 1 weke 1
toyota 1 welut 1
trane 1 wenang 1
(3)
127
Term Frek Term Frek
trauma 1 wibawa 1
triharjo 1 widagda 1
triharjun 1 wigih 1
trirenggo 1 wijik 1
tubruk 1 wingking 1
9. Kata Unik dengan Frekuensi 20-130 (236 kata)
Term Frek Term Frek Term Frek
lara 130 rasa 59 dhidhik 44
obat 103 urip 59 laku 44
rega 97 manawa 58 teka 44
negara 95 alam 57 usaha 44
rp 89 pabrik 57 atur 43
sekolah 80 wujud 57 budidaya 43
butuh 77 babag 54 jeneng 43
dening 77 tulis 54 jroning 43
kurang 76 jinis 52 kasil 43
masarakat 74 murid 52 tuwuh 43
ekonomi 73 tampa 52 asil 42
guru 73 papan 51 dhuwur 42
banyu 71 dhuwit 50 kandhut 42
becik 71 sleman 50 klebu 42
indonesia 70 teges 49 turut 42
jaba 68 gampang 48 ngerti 41
putra 68 lenga 48 tani 41
menyang 66 tetep 48 wanita 41
barang 65 seneng 47 daya 40
tuwa 64 tambah 47 jepang 40
dina 63 nane 46 pamulang 40
tandur 63 sinau 46 taman 40
gedhe 62 siswa 46 umur 40
temu 60 cilik 45 lair 39
perlu 59 siji 45 ligi 39
sri 39 desa 33 undhak 30
suwe 39 golek 33 undhang 30
wulang 39 kewan 33 bangsa 29
basa 38 lebu 33 bangun 29
(4)
128
Term Frek Term Frek Term Frek
jare 38 suda 33 dol 29
kutha 38 donya 32 jakarta 29
warna 38 gelem 32 tinggi 29
anyar 37 ibu 32 tuku 29
perintah 37 loro 32 kahanan 28
sambung 37 pengin 32 murih 28
unjuk 37 sasi 32 rana 28
yogyakarta 37 tau 32 tenan 28
gula 36 bantul 31 tengah 28
kasarasan 36 kira 31 urus 28
anak 35 nyata 31 ara 27
ati 35 omah 31 kaji 27
angel 34 pulo 31 kandha 27
anggep 34 bali 30 kartu 27
bahan 34 mendhong 30 rata 27
dhudhuk 34 mundhak 30 umum 27
kulit 34 pak 30 woh 27
pangan 34 pasar 30 ahli 26
sawiji 34 pos 30 dagang 26
thithik 34 udud 30 jaga 26
jupuk 26 nandhang 22 kelas 20
katon 26 salah 22 kerja 20
maca 26 zat 22 koperasi 20
mahasiswa 26 aneh 21 krasa 20
mari 26 bukti 21 maju 20
mati 26 dhahar 21 melu 20
reiki 26 entuk 21 modhel 20
sumber 26 ingkang 21 pratela 20
tela 26 kaum 21 sarana 20
wigati 26 kayata 21 tang 20
kecamatan 25 lakon 21 tuli 20
kkn 25 paring 21 program 24
nate 25 resik 21 rumangsa 24
(5)
129
Term Frek Term Frek Term Frek
tamba 25 weneh 21 serikat 24
telu 25 antuk 20 tanggal 24
tingkat 25 bantu 20 baku 23
warga 25 buku 20 biyantu 23
asal 24 dhasar 20 dhaerah 23
gunung 24 ganggu 20 ketaman 23
isi 24 jam 20 kualitas 23
kono 24 jaman 20 lumrah 23
mono 24 kantor 20 merga 23
paling 24 kaping 20 nadyan 23
pisan 24 karep 20 sok 23
amrih 22
bayi 22
budi 22
campur 22
dhokter 22
enggal 22
jero 22
karya 22
lulus 22
mangsa 22
manut 22
10.Kata Unik dengan Frekuensi 70-90 (11 kata)
Term Frek
Rp 89
sekolah 80
butuh 77
dening 77
kurang 76
masarakat 74 ekonomi 73
guru 73
banyu 71
becik 71
(6)
130 11.Kata Unik dengan Frekuensi 50-150 (40 kata)
Term Frek Term Frek Term Frek
bocah 148 perlu 59 indonesia 70
Lara 130 rasa 59 jaba 68
Obat 103 urip 59 putra 68
Rega 97 manawa 58 menyang 66
negara 95 alam 57 barang 65
Rp 89 pabrik 57 tuwa 64
sekolah 80 wujud 57 dina 63
butuh 77 babag 54 tandur 63
dening 77 tulis 54 gedhe 62
kurang 76 jinis 52 temu 60
masarakat 74 murid 52
ekonomi 73 tampa 52
Guru 73 papan 51
banyu 71 dhuwit 50
Becik 71 sleman 50
12.Kata Unik dengan Frekuensi 75-85 (4 kata)
Term Frek
sekolah 80
Butuh 77
dening 77 kurang 76