Optimasi Pusat Cluster Awal K-Means dengan Algoritma Genetika Pada Pengelompokan Dokumen Chapter III V

BAB 3
METODOLOGI PENELITIAN

3.1 Proses Penelitian
Dalam melakukan penelitian diperlukan suatu cara atau metode untuk menjadikan
proses penelitian tersebut lebih terstruktur agar lebih mudah dipahami. Oleh sebab itu
pada bab ini akan dibahas bagaimana tahapan-tahapan pada penelitian, teknik
pengumpulan data, tahapan preprocessing, tahapan pembentukan kromosom
dokumen, tahapan proses clustering dan tahapan proses optimasi dengan melibatkan
algoritma genetika untuk menentukan pusat cluster awal k-means clustering yang
menjadi pokok permasalahan pada penelitian ini.
Pengelompokan dokumen teks pada penelitian ini dilakukan untuk menganalisis
bagaimana suatu algoritma pengelompokan yaitu k-means clustering pada penentuan
pusat cluster awalnya akan dioptimasi menggunakan algoritma genetika. Pada proses
optimasi dengan algoritma genetika maka setiap dokumen akan direpresentasikan
sebagai bentuk kromosom. Bentuk kromosom selanjutnya akan dikenai operator
genetika yaitu selection, crossover dan mutation. Tahapan-tahapan proses yang
dilakukan untuk menggambarkan proses pengelompokan dokumen tersebut dimulai
dengan memasukkan kumpulan dokumen, pre-processing, clustering dan output hasil
pengelompokan. Sebagaimana dapat dilihat pada gambar 3.1 berikut ini.
Output

Input
Kumpulan
Dokumen

Dokumen
Terkelompok
Pre- Processing

Processing

Clustering

Token, filter,
Stemm,
Indeksing kata

Pemilihan Pusat
Cluster Awal
dengan Algoritma
Genetika


Pengelompokan
Dokumen
dengan K-Means
Clustering

Gambar 3.1 Skema Proses Pengelompokan

Universitas Sumatera Utara

31

3.2 Tahapan Penelitian
Dalam penelitian ini dilakukan beberapa tahapan sebagai berikut :
1. Studi Literatur dan Bimbingan
Pada tahap ini dilakukan pengumpulan berbagai penelitian sebelumnya yang
diambil dari jurnal, pustaka, prosiding dan sumber lain yang relevan. Dengan
permasalahan mengenai algoritma k-means dan algoritma genetika dalam hal
kaitannya dengan tujuan permasalahan penelitian ini. Kemudian mempelajarinya
dan juga melakukan konsultasi dengan dosen pembimbing.

2. Pengumpulan Data
Data yang dikumpulkan pada penelitian ini bersumber dari beberapa media berita
online. Kemudian menyimpannya ke dalam dokumen teks masing-masing berita
tersebut untuk dilakukan pengujian pengelompokan.
3. Preproses Data
Pada tahap ini data berupa dokumen sebelum diproses dengan algoritma yang
digunakan penelitian ini maka dilakukan preproses terlebih dahulu yaitu
melakukan text mining pada dokumen sehingga menghasilkan ekstraksi pola
dokumen yang dibutuhkan pada proses algoritma selanjutnya.
4. Penerapan Model Algoritma
Setelah dilakukan preproses maka tahapan selanjutnya yaitu menerapkan polapola dari dokumen tersebut pada algoritma genetika terlebih dahulu untuk
mengoptimasi pusat cluster awal dari kumpulan dokumen dan selanjutnya
mengelompokkannya dengan menggunakan algoritma k-means clustering
berdasarkan pusat cluster awal yang telah dioptimasi sebelumnya.
5. Analisis Model Algoritma
Merupakan tahapan untuk menganalisis model algoritma genetika untuk optimasi
pusat cluster awal pada k-means clustering. Dari hasil analisis ini diharapkan
dapat diketahui bahwa algoritma genetika mampu mengoptimasi pusat cluster
awal pada k-means clustering untuk pengelompokan dokumen.


Universitas Sumatera Utara

32

6. Pengujian
Pengujian dilakukan menggunakan aplikasi yang dibangun dengan bahasa
pemrograman visual c# berbasis net framework. Data masukan yang diproses
untuk menguji algoritma pada penelitian ini berupa kumpulan dokumen teks.
Kemudian data keluaran yang dihasilkan yaitu pengelompokan dokumen.
7. Hasil dan Kesimpulan
Mulai dari tahap studi literatur dan bimbingan sampai pada tahapan pengujian.
semua hal yang berkaitan dengan penelitian didokumentasikan menjadi sebuah
laporan berupa hasil penelitian, mulai dari teori pendukung, permbuatan aplikasi,
pengujian dan hasil pengujian serta saran yang dapat dilakukan pada penelitian
selanjutnya.

3.3 Jenis dan Sumber Data
Jenis data yang digunakan pada penelitian ini adalah konten berita yang bersumber
dari beberapa media online dengan berbagai tema berita. Berikut merupakan rincian
dari sumber data yang diambil dari penelitian ini.

Tabel 3.1 Tabel Sumber Berita Online
No.

1

2

Konten Berita
Memiliki tremor esensial bisa sangat
mengganggu aktivitas sehari-hari mengingat
makan, minum, menulis dan kebanyakan
tugas dilakukan menggunakan tangan. Ada
obat, tetapi tidak bekerja secara konsisten.
Operasi
adalah
pilihannya.
Seperti
pengobatan yang disebut stimulasiotak
dalam, dokter akan menanamkan perangkat
di otak Anda untuk membantu mengontrol

tremor.

Penyakit parkinson memang belum bisa
disembuhkan secara total, namun menurut dr
Made Agus M. Inggas, SpBS, gejalanya dapat

Sumber Berita

http://health.liputan6.com/

http://health.liputan6.com/

Universitas Sumatera Utara

33

3

4


5

6

diatasi dengan pemberian obat levodopa atau
golongan
obat
parkinson
lainnya,
berolahraga, dan fisioterapi. Sayangnya,
setelah pemberian obat jangka panjang, tak
jarang pengaruh obat pada tubuh pasien juga
dapat menjadi kurang efektif dan memiliki
efek samping.
Pasarsaham Amerika Serikat (AS) ditutup
melemah, terpukul oleh saham sektor energi
seiring harga minyak mentah yang
http://economy.okezone.com/
mengalami penurunan. Investor pun masih
menanti kejelasan lebih lanjut tentang

kebijakkan ekonomi Presiden Donald Trump.
Kurs dolar AS sedikit menguat terhadap
sebagian besar mata uang utama lainnya
pada Senin (Selasa pagi WIB), di tengah
kekhawatiran atas ketidakpastian politik di
Eropa menjelang pemilihan umum. Para
analis mengatakan investor sebagian besar
http://economy.okezone.com/
fokus pada situasi politik di Prancis.
Pemimpin partai Front Nasional Marine Le
Pen
yang
meluncurkan
kampanye
presidennya akhir-akhir ini mengecam
globalisasi dan berjanji menghapus Prancis
dari zona euro.
Sebagai tindak lanjut pemberlakuan UndangUndang Undang-Undang Nomor 11 Tahun
2008 tentang Informasi dan Transaksi
Elektronik (UU ITE) yang diberlakukan hari

ini, Kementerian Komunikasi dan Informatika http://techno.okezone.com/
(Kominfo) akan segera menerapkan sebuah
sistem yang dapat menghilangkan konten
negatif di dunia maya dengan filtering atau
penapisan.
Media sosial masih menjadi alat paling efektif
untuk menyebarkan hoax. Hal tersebut
diakibatkan oleh rendahnya literasi informasi http://techno.okezone.com/
dan media, terlebih media sosial.Berdasarkan
data yang Kementerian Komunikasi dan

Universitas Sumatera Utara

34

7

Informatika (Kominfo) himpun, Google dan
YouTube juga turut mendapatkan laporan
sebanyak 1.204 sepanjang 2016 hingga 2017.

Regulasi yang mengatur pemain Over The
Top (OTT) dipastikan rilis pada tahun ini.
Menteri Komunikasi dan Informatika
(Menkominfo)
Rudiantara
memastikan
rilisnya peraturan menteri terkait bisnis OTT
pada tahun ini. Rudiantara mengatakan, ada
tiga aspek yang perlu diperhatikan. Aspek
tersebut antara lain customer service,
consumer data protection dan level playing
field

http://techno.okezone.com/

3.4 Penentuan Tema Dokumen Berita
Penentuan tema dokumen berita dilakukan berdasarkan sumber berita dan kata yang
sering muncul pada tema dokumen tersebut. Sehingga user secara manual dapat
menentukan tema yang layak pada dokumen tersebut. Sebagai contoh berikut
merupakan cara untuk menentukan tema dokumen berita :

Memiliki tremor esensial bisa sangat mengganggu aktivitas sehari-hari
mengingat makan, minum, menulis dan kebanyakan tugas dilakukan
menggunakan tangan. Ada obat, tetapi tidak bekerja secara konsisten.
Operasi adalah pilihannya. Seperti pengobatan yang disebut
stimulasiotak dalam, dokter akan menanamkan perangkat di otak
Anda untuk membantu mengontrol tremor.
Pada contoh konten berita diatas berdasarkan kata-kata yang bercetak tebal dapat
disimpulkan secara manual oleh user bahwa konten berita tersebut termasuk sebagai
konten berita yang bertema kesehatan.
Kemudian dokumen konten berita diberi label nama yaitu dokumen 1 (Dok1),
dokumen 2 (Dok2), dokumen 3 (Dok3), dokumen 4 (Dok4), Dokumen 5 (Dok5),
dokumen 6 (Dok6) dan dokumen 7 (Dok7).Untuk lebih jelasnya berikut ini pada tabel
4.1 merupakan daftar tabel konten berita sebagai dokumen yang akan dilakukan
preprocessing.

Universitas Sumatera Utara

35

Tabel 3.2 Tabel Daftar Konten Berita
Dokumen

Dok 1

Dok 2

Dok 3

Dok 4

Dok 5

Konten Berita
Memiliki tremor esensial bisa sangat mengganggu
aktivitas sehari-hari mengingat makan, minum, menulis
dan kebanyakan tugas dilakukan menggunakan tangan.
Ada obat, tetapi tidak bekerja secara konsisten. Operasi
adalah pilihannya. Seperti pengobatan yang disebut
stimulasiotak dalam, dokter akan menanamkan perangkat
di otak Anda untuk membantu mengontrol tremor.
Penyakit parkinson memang belum bisa disembuhkan
secara total, namun menurut dr Made Agus M. Inggas,
SpBS, gejalanya dapat diatasi dengan pemberian obat
levodopa atau golongan obat parkinson lainnya,
berolahraga, dan fisioterapi. Sayangnya, setelah
pemberian obat jangka panjang, tak jarang pengaruh
obat pada tubuh pasien juga dapat menjadi kurang efektif
dan memiliki efek samping.
Pasar saham Amerika Serikat (AS) ditutup melemah,
terpukul oleh saham sektor energi seiring harga minyak
mentah yang mengalami penurunan. Investor pun masih
menanti kejelasan lebih lanjut tentang kebijakkan
ekonomi Presiden Donald Trump.
Kurs dolar AS sedikit menguat terhadap sebagian besar
mata uang utama lainnya pada Senin (Selasa pagi WIB),
di tengah kekhawatiran atas ketidakpastian politik di
Eropa menjelang pemilihan umum. Para analis
mengatakan investor sebagian besar fokus pada situasi
politik di Prancis. Pemimpin partai Front Nasional
Marine Le Pen yang meluncurkan kampanye presidennya
akhir-akhir ini mengecam globalisasi dan berjanji
menghapus Prancis dari zona euro.
Sebagai tindak lanjut pemberlakuan Undang-Undang
Undang-Undang Nomor 11 Tahun 2008 tentang
Informasi dan Transaksi Elektronik (UU ITE) yang
diberlakukan hari ini, Kementerian Komunikasi dan
Informatika (Kominfo) akan segera menerapkan sebuah
sistem yang dapat menghilangkan konten negatif di dunia
maya dengan filtering atau penapisan.

Tema

Kesehatan

Kesehatan

Ekonomi

Ekonomi

Teknologi

Universitas Sumatera Utara

36

Dokumen

Dok 6

Dok 7

Konten Berita
Media sosial masih menjadi alat paling efektif untuk
menyebarkan hoax. Hal tersebut diakibatkan oleh
rendahnya literasi informasi dan media, terlebih media
sosial.Berdasarkan data yang Kementerian Komunikasi
dan Informatika (Kominfo) himpun, Google dan
YouTube juga turut mendapatkan laporan sebanyak 1.204
sepanjang 2016 hingga 2017.
Regulasi yang mengatur pemain Over The Top (OTT)
dipastikan rilis pada tahun ini. Menteri Komunikasi dan
Informatika (Menkominfo) Rudiantara memastikan
rilisnya peraturan menteri terkait bisnis OTT pada tahun
ini. Rudiantara mengatakan, ada tiga aspek yang perlu
diperhatikan. Aspek tersebut antara lain customer
service, consumer data protection dan level playing field

Tema

Teknologi

Teknologi

3.5 Teknik Pengumpulan Data
Pengumpulan data dilakukan dengan menyimpan isi dari masing-masing konten
berita yang dipilih sebelumnya ke dalam file teks yang berekstensi .txt. Kemudian file
teks tersebut ditempatkan pada satu folder yang selanjutnya kumpulan file teks
tersebut menjadi

sumber kumpulan dokumen

yang akan diproses untuk

dikelompokkan.

3.6 Preprocessing Dokumen
Preprocessing pada penelitian dilakukan dengan mengekstraksi informasi yang ada
pada dokumen atau biasa disebut dengan text mining. Tujuan dari preprocessing ini
adalah untuk mempersiapkan teks pada dokumen menjadi bentuk yang dapat
digunakan pada proses selanjutnya. Berikut ini pada Gambar 3.2 dapat dilihat tahapan
untuk melakukan preprocessing dokumen.

Universitas Sumatera Utara

37

Gambar 3.2 Flowchart PreProcessing Dokumen
Dari Gambar 3.2 dimulai dengan memasukkan dokumen selanjutnya tokenizing
yaitu menghilangkan karakter selain huruf pada teks dokumen, filtering yaitu
mengambil kata-kata penting pada teks dokumen dan stemming yaitu mengambil kata
dasar dari teks dokumen. Kemudian mengindeksnya menjadi informasi yang berisi
kata dan jumlah frekuensi.

3.8.1 Tokenizing
Pada tokenizing setiap kata pada masing-masing dokumen akan dihilangkan karakter
selain huruf untuk memudahkan dalam proses pengindeksian kata-kata pada dokumen
tersebut. Sebagai contoh berikut merupakan hasil tokenizing pada dokumen Dok1 :
Sebelum Tokenizing
Memiliki tremor esensial bisa sangat mengganggu aktvitas seharihari mengingat makan, minum, menulis dan kebanyakan tugas
dilakukan menggunakan tangan. Ada obat, tetapi tidak bekerja

Universitas Sumatera Utara

38

secara konsisten. Operasi adalah pilihannya. Seperti pengobatan
yang disebut stimulasi otak dalam, dokter akan menanamkan
perangkat di otak Anda untuk membantu mengontrol tremor.
Sesudah Tokenizing
Memiliki tremor esensial bisa sangat mengganggu aktvitas sehari
hari mengingat makan minum menulis dan kebanyakan tugas
dilakukan menggunakan tangan Ada obat tetapi tidak bekerja
secara konsisten Operasi adalah pilihannya Seperti pengobatan
yang disebut stimulasi otak dalam

dokter akan menanamkan

perangkat di otak Anda untuk membantu mengontrol tremor

Pada hasil tokenizing di atas dapat dilihat beberapa tanda baca seperti tanda
koma, titik dan tanda sambung kata telah dihilangkan pada hasil tokenizing tersebut.

3.8.2 Filtering
Setelah melewati proses tokenizing maka selanjutnya dilakukan proses filtering untuk
mengambil kata-kata penting dari hasil tokenizing pada sebelumnya. Pada filtering
tersebut setiap kata akan dicek dengan tabel stoplist dan apabila kata tersebut terdapat
pada tabel stoplist maka kata tersebut dihapus. Berikut merupakan contoh dari hasil
filtering pada dokumen Dok1 :
Sebelum Filtering
Memiliki tremor esensial bisa sangat mengganggu aktvitas sehari
hari mengingat makan minum menulis dan kebanyakan tugas
dilakukan menggunakan tangan Ada obat tetapi tidak bekerja
secara konsisten Operasi adalah pilihannya Seperti pengobatan
yang disebut stimulasi otak dalam

dokter akan menanamkan

perangkat di otak Anda untuk membantu mengontrol tremor

Universitas Sumatera Utara

39

Sesudah Filtering
memiliki tremor esensial mengganggu aktvitas sehari makan
minum menulis kebanyakan tugas tangan obat konsisten operasi
pilihannya pengobatan stimulasi otak dokter menanamkan
perangkat otak membantu mengontrol tremor

Pada hasil filtering di atas dapat dilihat beberapa kata dihilangkan dikarenakan
kata tersebut terdapat pada tabel stoplist yang digunakan. Seperti contoh di atas kata
yang dihilangkan yaitu bisa, ada, akan, untuk, dilakukan, anda, tetapi, tidak, secara,
sangat, dan, adalah, disebut, yang, dalam . Tujuan dihilangkan kata-kata tersebut
adalah untuk menyeleksi kata-kata yang memiliki makna dan mewakili ciri khas suatu
tema dokumen.

3.8.3 Stemming
Langkah terkahir pada preprocessing ialah melakukan stemming yaitu mengambil
kata dasar dari setiap kata pada dokumen dari hasil filtering dan juga mengembalikan
kata dasar dari kata tersebut. Berikut merupakan contoh hasil stemming pada
dokumen Dok1 :
Sebelum Stemming
memiliki tremor esensial mengganggu aktvitas sehari makan
minum menulis kebanyakan tugas tangan obat konsisten operasi
pilihannya pengobatan stimulasi otak dokter menanamkan
perangkat otak membantu mengontrol tremor
Sesudah Stemming
milik tremor esensial ganggu aktvitas hari makan minum tulis
banyak tugas tangan obat konsisten operasi pilih obat stimulasi
otak dokter tanam perangkat otak bantu kontrol tremor

Universitas Sumatera Utara

40

Pada hasil stemming di atas dapat dilihat setiap kata pada hasil filtering
sebelumnya akan dicari kata dasarnya untuk menghindari duplikat kata yang memiliki
arti kata dasar yang sama. Seperti contoh di atas kata memiliki

menjadi bentuk

dasarnya milik .

3.7 Pembentukan Kromosom Dokumen
Pembentukan kromosom merupakan langkah awal dari terwujudnya proses pada
algoritma genetika. Hal tersebut dikarenakan kromosom sebagai representasi
penyelesaian dari masalah. Pada penelitian ini kromosom akan dibentuk dengan
menggunakan kode biner yang merepresentasikan solusi dari pusat cluster awal pada
k-means clustering.
Proses pembentukan kromosom untuk penyelesaian masalah menentukan
dokumen sebagai pusat cluster awal k-means dapat dilihat pada Gambar 3.3 berikut
ini.

Universitas Sumatera Utara

41

Gambar 3.3 Proses Pembentukan Kromosom Dokumen

Pada gambar 3.3 dapat dilihat panjang kromosom ditentukan dari jumlah indeks
kata dan untuk jumlah kromosom berdasarkan banyaknya total dokumen. Kemudian
untuk mengisi nilai biner dari masing-masing gen pada kromosom tersebut ditentukan
dari ada tidaknya kata pada dokumen dengan indeks kata.
3.8 Optimasi Pusat Cluster Awal dengan Algoritma Genetika
Untuk mendapat sejumlah k dokumen sebagai pusat cluster awal untuk
pengelompokan dokumen pada k-means, maka setiap dokumen akan berkompetisi
untuk menjadi k dokumen yang layak menjadi pusat cluster awal pada k-means.

Universitas Sumatera Utara

42

Dengan algoritma genetika proses tersebut dapat digambarkan seperti pada Gambar
3.4 berikut ini.

Gambar 3.4 Proses Optimasi Pusat Cluster Awal
Dalam melakukan pemilihan k dokumen dengan algoritma genetika tersebut
setiap dokumen yang berkompetisi akan melalui beberapa tahapan pada algoritma
genetika. Tahapan-tahapannya berdasarkan gambar 3.4 adalah sebagai berikut :
1. Tahapan pertama yaitu mendefinisikan indeks kata keseluruhan pada dokumen
dan membentuknya menjadi kromosom sebagai solusi dari dokumen yang akan
terpilih.
2. Tahapan kedua yaitu menginsialisasi populasi awal pada kromosom.

Universitas Sumatera Utara

43

3. Tahapan ketiga yaitu mengevaluasi nilai fitness pada setiap kromosom yang ada
dalam populasi. Pada tahapan ini juga akan disimpan data populasi yang memiliki
kromosom dengan fitness terbaik untuk dibawa pada proses selanjutnya.
4. Tahapan keempat yaitu membuat populasi baru. Membuat populasi baru
dilakukan dengan mengulang proses seleksi, mutasi dan crossover sampai
generasi maksimum tercapai. Pada akhir proses akan ditampilkan hasil k
dokumen dari populasi dengan kromosom fitness terbaik.

3.9 Pengelompokan Dokumen dengan K-Means
Algoritma k-means clustering merupakan algoritma pengelompokan iteratif yang
mengelompokan data berdasarkan kedekatan jarak. Pada proses pengelompokan
dokumen dengan algoritma k-means clustering akan melalui beberapa tahapantahapan untuk mencapai hasil pengelompokan yang maksimal. Sejumlah dokumen
yang akan dikelompokan sebelumnya telah melewati rangkaian proses pada algoritma
genetika untuk menentukan sejumlah k dokumen yang akan dijadikan sebagai pusat
cluster awal pada k-means tersebut.
Pada proses penentuan pusat cluster awal k-means dengan algoritma genetika
setiap kata pada dokumen akan diseleksi untuk mendapatkan indeks kata yang dapat
mengelompokkan dokumen sesuai dengan temanya masing-masing. Untuk lebih
jelasnya rangkaian proses pengelompokan dengan k-means clustering dapat dilihat
pada Gambar 3.5 berikut ini.

Universitas Sumatera Utara

44

Gambar 3.5 Proses Pengelompokan Dokumen dengan K-Means
Pada Gambar 3.5 diatas dapat dilihat rangkaian proses dari pengelompokan dokumen
dengan algoritma genetika. Tahap pertama yaitu memilih sumber dokumen yang
dikelompokkan kemudian melakukan preprocessing dokumen. Setelah didapat indeks
kata dan menentukan jumlah k kelompok maka selanjutnya membentuk kromosom
berdasarkan indeks kata dan melakukan proses algoritma genetika untuk
mendapatkan pusat cluster awal. Kemudian proses selanjutnya yaitu melakukan
langkah iteratif dengan mengelompokkan dokumen berdasarkan kemiripan dengan
pusat cluster yang akan dibentuk berdasarkan hasil dari proses sebelumnya. Hal
tersebut terus dilakukan sampai posisi dokumen tidak berpindah lagi yang artinya
proses pengelompokan telah selesai dilakukan.
3.10 Tahapan Iterasi Pengelompokan K-Means
Pada pengelompokan dokumen untuk menghitung jarak antara dokumen dengan
pusat cluster awal menggunakan fungsi cosine similarity. Setiap dokumen yang telah

Universitas Sumatera Utara

45

mendapatkan posisi cluster akan digabungkan berdasarkan posisi clusternya dan
menjadikannya sebagai pusat cluster kembali.
Berikut merupakan tahapan-tahapan iterasi algoritma pengelompokan KMeans dalam pengelompokan dokumen :
1. Menentukan jumlah K cluster
Jumlah K cluster ditentukan berdasarkan pengetahuan user tentang jumlah
kelompok dokumen yang berbeda pada sekumpulan dokumen tersebut.
2. Penentuan pusat cluster awal
Pusat cluster awal dapat ditentukan secara random ataupun dengan algoritma
genetika yang pada penelitian ini akan dilihat perbedaannya. Jumlah pusat cluster
awal disesuaikan jumlah K cluster yang sebelumnya sudah ditentukan terlebih
dahulu.
3. Hitung kemiripan dokumen terhadap pusat cluster awal
Pada tahap ini masing-masing dokumen pada sekumpulan dokumen akan dinilai
kemiripannya dengan pusat cluster awal. Metode yang digunakan untuk menghitung
keimiripan dokumen tersebut ialah cosine similarity seperti yang sudah dijelaskan
pada sub bab sebelumnya.
4. Penentuan kelompok dokumen
Menentukan kelompok dokumen berdasarkan nilai maksimum kemiripan yang
diperoleh dari perhitungan ke masing-masing pusat cluster awal.
5. Menentukan pusat cluster baru
Setelah pada tahapan sebelumnya diperoleh hasil pengelompokan sementara dari
nilai maksimum kemiripan, maka pada tahap ini pusat cluster baru yang terbentuk
adalah kumpulan dari masing-masing cluster yang terbentuk.
6. Hitung kemiripan dokumen terhadap pusat cluster baru
Pada tahapan ini cara kerja yang digunakan sama seperti pada tahapan ke 3 yaitu
menghitung kembali kemiripan masing-masing sekumpulan dokumen dengan pusat
cluster baru menggunakan metode cosine similarity.

Universitas Sumatera Utara

46

7. Cek perubahan posisi cluster
Pada tahapan ini akan diperiksa perubahan posisi cluster hasil pengelompokan
dengan posisi cluster pada hasil pengelompokan sebelumnya. Jika tidak ada
perubahan maka hasil pengelompokan telah mencapai kondisi konvergen yang berarti
hasil pengelompokan telah didapatkan. Berikut merupakan contoh hasil akhir iterasi
perhitungan dokumen dengan pusat cluster.

Universitas Sumatera Utara

 
 HASAN DAN HASIL

4.1 Pembahasan
Pada bab ini akan membahas bagaimana melakukan

pengujian dan hasil dari

pengelompokan dokumen tersebut. Pengelompokan dokumen yang akan diuji berupa
konten berita yang bertujuan untuk mengelompokkan dokumen yang memiliki konten
berita yang berbeda namun berada pada satu tempat yang sama, sehingga dengan
dilakukannya pengelompokan (

) dapat memisahkan konten yang berbedabeda tersebut berdasarkan karakteristik kata/tema konten beritanya masing-masing.
Dengan dapat dilakukannya proses pengelompokan dokumen tersebut oleh komputer
diharapkan dapat memudahkan kita dalam keperluan berbagai halnya seperti analisis
dokumen forensik.
Memodelkan algoritma genetika untuk dapat melakukan optimasi dokumen
sebagai pusat cluster awal tentu memiliki beberapa aturan yang disesuaikan dengan
masalah tersebut. Pada penelitian ini representasi kromosom yang digunakan adalah
representasi kode biner yaitu menggunakan nilai 1 dan 0 sebagai penyusun
kromosom yang dibuat seperti yang telah dijelaskan pada bab sebelumnya. Kemudian
untuk menghitung nilai




dengan membandingkan keterhubungan setiap

kromosom yang satu dengan yang lainnya pada pencocokan nilai biner yang ada pada
kromosom kemudian menghitung nilai rata-ratanya sebagai nilai fitness. Semakin
jauh perbedaan pencocokan kode biner setiap kromosom, maka kromosom tersebut
layak dijadikan sebagai solusi pada penentuan pusat cluster awal.
4.2 Pemilihan Dokumen
Pada pembahasan ini pengelompokan dokumen akan dilakukan dengan mengambil
sebanyak 7 konten berita. Masing-masing berita akan dikelompokkan berdasarkan isi
konten yang memiliki kemiripan dengan 3 tema berita yaitu kesehatan, ekonomi dan
teknologi.

Universitas Sumatera Utara

48

Dokumen yang berisi konten berita pada tabel 3.2 pada bab sebelumnya akan

  untuk diekstraksi yaitu
(membuang karakter selain huruf),  (menyaring kata-kata penting)
dan  (mengambil kata dasar). Sehingga hasil dari rangkaian proses tersebut
melewati

serangkaian

proses

pada

dapat dilihat pada tabel 4.1 sebagai berikut.
Tabel 4.1 Hasil Ekstraksi Dokumen Konten Berita
Dokumen
Dok1

Dok2

Dok3

Dok4

Dok5

Dok6

Dok7

Konten Berita

    !     
   "  # #$ "   
%  #  "  
 # " $  % %    #" &
" !%#  " # $ #
' " & & # $ "  " $ # 
  #
# $      # $ $ 
  $ ' $     ! "&
 #% %%  #
  %        # (" $
$( %# # # & #$  
 !     # #) ## #
    #  )  #' #% )
" && $#  #)   
% #"  % % % % 
$    
 
    #  $ 
 %  '  #
%    " $ " %$ 
 % %  % %   
  $#   '  " #
     ! #   $    
   %     
"  $  #     %
%   & "  % # $ #
)  !) )  % #) ! #' %

Jumlah
Kata
24

29

22

41

26

23

41

Universitas Sumatera Utara

49

Setelah diekstraksi maka selanjutnya setiap kata pada dokumen akan diindeks
untuk mendapatkan indeks kata sebagai representasi pada kromosom untuk tahap
selanjutnya. Berikut merupakan hasil indeks kata dari seluruh dokumen :

*+,- *./0*1 *.1/2/1*- *3*4/ *3*1 *456/.* *7*3/- *- *-85. *1,6 0*71, 0/9*. 0/-7/:;7-,456 :,-1;456 8/48/7 83*@/7+ 8;3/1/. 86*7:/865-/ -57/7 -56/.*1 -562/:5 -/-154 -/1,*-/ -;-/*3 -80- -1/4,3*-/
1*>,7 1*7*4 1*7+*7 1*8/- 157+*> 156*8 1/7
1,+*- 1,3/- 1,6,7 1,1,8 ,*7+ ,4,4 ,7