Optimasi Pusat Cluster Awal K-Means dengan Algoritma Genetika Pada Pengelompokan Dokumen
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS
MUHAMMAD FAUZI
147038065
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika
MUHAMMAD FAUZI
147038065
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
PERSETUJUAN
Judul
: OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN
ALGORITMA
GENETIKA
PADA
PENGELOMPOKAN DOKUMEN
Kategori
: TESIS
Nama
: MUHAMMAD FAUZI
Nomor Induk Mahasiswa : 147038065
Program Studi
: MAGISTER(S2) TEKNIK INFORMATIKA
Fakultas
: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Dr. Sawaluddin, M.IT
Prof. Dr. Muhammad Zarlis
Diketahui/disetujui oleh
Program Studi Magister(S2) Teknik Informatika
Ketua,
Prof. Dr. Muhammad Zarlis
NIP. 19570701 198601 1 003
i
Universitas Sumatera Utara
PERNYATAAN
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS
Saya mengakui semua tesis ini adalah hasil karya saya sendiri kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan,
April 2017
Muhammad Fauzi
147038065
ii
Universitas Sumatera Utara
PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di
bawah ini :
Nama
: Muhammad Fauzi
NIM
: 147038065
Program Studi
: Magister(S2) Teknik Informatika
Jenis Karya Ilmiah
: Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif(Non-Exclusive Royalty
Free Right) atas tesis saya yang berjudul :
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti NonEksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media,
memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis
saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai
penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan,
April 2017
Muhammad Fauzi
147038065
iii
Universitas Sumatera Utara
Telah diuji pada
Tanggal
: 28 April 2017
PANITIA PENGUJI TESIS
Ketua
: Prof. Dr. Muhammad Zarlis
Anggota
: 1. Dr.Sawaluddin, M.IT
2. Prof. Dr. Tulus
3. Dr. Pahala Sirait, S.T, M.Kom
iv
Universitas Sumatera Utara
RIWAYAT HIDUP
DATA PRIBADI
Nama
: Muhammad Fauzi, S.T, M.Kom
Tempat dan Tanggal Lahir
: Medan, 15 Agustus 1991
Alamat Rumah
: Jl. Tawang Mangu Lingk 1 Musyawarah,
Kelurahan Kwala Bingai, Stabat.
Telepon / HP
: 085270014645
Email
: chayo.zie@gmail.com
Instansi tempat bekerja
: Politeknik Unggul LP3M
Alamat Kantor
: Jl. Iskandar Muda No.3 CDEF, Medan.
DATA PENDIDIKAN
SD
: SDN 050659 Stabat
TAMAT : 2003
SMP
: MTsN 1 Stabat
TAMAT : 2006
SMA
: MAN 2 Tanjung Pura
TAMAT : 2009
S1
: Teknik Informatika UNIMAL
TAMAT : 2014
S2
: Teknik Informatika USU
TAMAT : 2017
v
Universitas Sumatera Utara
UCAPAN TERIMA KASIH
Bismillahirrahmaanirrahiim, Puji Syukur kehadirat Allah SWT, yang telah
melimpahkan rahmat dan karunia-Nya kepada penulis, sehingga penulis dapat
menyelesaikan tesis ini yang berjudul : Optimasi Pusat Cluster Awal K-Means
dengan Algoritma Genetika Pada Pengelompokan Dokumen
dengan sebaik-
baiknya.
Penyusunan Tesis ini merupakan salah satu syarat untuk dapat memperoleh gelar
Magister (S2) Teknik Informatika Pada Universitas Sumatera Utara. Penulis
menyadari apa yang penulis tuangkan dalam Tesis ini tidak terlepas dari peranan
seluruh dosen, teman-teman dan seluruh keluarga yang turut memberikan bantuan
moril maupun materil. Untuk itu penulis menyampaikan terima kasih kepada:
1. Rektor Universitas Sumatera Utara, Bapak Prof. Dr. Runtung Sitepu, S.H.,
M.Hum., atas kesempatan yang telah diberikan kepada penulis untuk dapat
mengikuti dan menyelesaikan pendidikan Program Magister Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
2. Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI)
Universitas Sumatera Utara, Bapak Prof. Dr. Opim Salim Sitompul, yang sudah
banyak memberikan bimbingan dan arahan.
3. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad
Zarlis. Sekretaris Program Studi Teknik Informatika, Bapak Syahril Efendi, S.Si.,
M.IT. Beserta seluruh Staff Pengajar Program Studi Magister Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama, demikian juga
kepada Bapak Dr. Sawaluddin, M.IT selaku Pembimbing Kedua yang dengan
penuh kesabaran menuntun dan membimbing penulis hingga selesainya tesis ini
dengan baik.
5. Bapak Prof. Dr. Tulus dan Bapak Dr. Pahala Sirait, S.T, M.Kom, sebagai Dosen
Pembanding yang telah memberikan saran dan masukan serta arahan yang baik
demi penyelesaian tesis ini.
vi
Universitas Sumatera Utara
6. Ayahanda tercinta Drs. Nurdin Ahmad, Ibunda tercinta Dra. Dasni, serta adikadik, keponakan, kakak kakakku tersayang serta seluruh keluarga besar yang
selalu memberi do a dan dukungan kepada penulis.
7. Seluruh staf pegawai Program Studi S2 Teknik Informatika Fakultas Ilmu
Komputer dan Teknik Informatika, serta teman-teman seperjuangan mahasiswa/i
Kom-C 2014.
8. Dan seluruh pihak yang tidak dapat disebutkan satu persatu dalam tesis ini, sekali
lagi terima kasih atas segala bantuan dan doa yang telah diberikan.
Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini
dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan
penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca pada
umumnya. Oleh karena itu penulis mengucapkan banyak terima kasih, semoga Allah
SWT membalas kebaikan yang telah diberikan. Aamiin.
Medan,
Penulis,
April 2017
Muhammad Fauzi
NIM: 147038065
vii
Universitas Sumatera Utara
ABSTRAK
Pengelompokan dokumen berdasarkan karakteristik kata yang ada pada dokumen
dilakukan untuk memudahkan mengorganisir dokumen pada kebutuhan lebih lanjut.
Algoritma K-Means clustering merupakan salah satu algoritma pengelompokan yang
melakukan pengelompokan secara iteratif dengan melakukan partisi set data ke dalam
sejumlah K cluster. Namun hasil pada K-Means clustering tersebut sangat ditentukan
pada penentuan pusat cluster awal yang pada umumnya ditentukan secara random.
Pada penelitian ini dilakukan penentuan pusat cluster awal K-Means untuk masalah
pengelompokan dokumen dengan memanfaatkan algoritma genetika sebagai algoritma
yang mengoptimasi pusat cluster awal K-Means tersebut. Pada hasil pengujian
pengelompokan dokumen berita yang dilakukan sebanyak 5 kali untuk pusat cluster
awal secara random tingkat keberhasilan mencapai 26.66 % sedangkan untuk pusat
cluster awal dengan algoritma genetika tingkat keberhasilan mencapai 46.66 %.
Kata Kunci : Pengelompokan, K-Means Clustering, Pusat Cluster Awal, Algoritma
Genetika, Optimasi, Dokumen
viii
Universitas Sumatera Utara
OPTIMIZATION OF INITIAL CLUSTER CENTER K-MEANS WITH
GENETIC ALGORITHM IN DOCUMENTS CLUSTERING
ABSTRACT
Clustering a data set of documents based on certain data points in documents are an
easy way to organize document for extension to work. K-Means clustering algorithm
is one of iterative cluster algorithm to partition a set of entities into K cluster.
Unfortunately, resulting in K Means cluster is depending on the initial cluster center
that generally assigned randomly. In this reserach, determining initial cluster center
K-Means for documents clustering are investigated by using genetic algorithm as an
algorithm which optimize initial cluster center of K-Means. Based on the result of this
test, clustering news document with 5 times for initial cluster center randomly has
26.66% for level of success, meanwhile for initial cluster center by using genetic
algorithm has 46.66% for level of success.
Keyword : Clustering, K-Means Clustering, Initial Cluster Center, Genetic Algorithm,
Optimization, Document
ix
Universitas Sumatera Utara
DAFTAR ISI
Hal
HALAMAN JUDUL
PERSETUJUAN ........................................................................................................
i
PERNYATAAN ........................................................................................................
ii
PERSETUJUAN PUBLIKASI ................................................................................. iii
PANITIA PENGUJI ................................................................................................. iv
RIWAYAT HIDUP ................................................................................................... vi
UCAPAN TERIMA KASIH...................................................................................... vi
ABSTRAK ................................................................................................................. viii
ABSTRACT............................................................................................................... xi
DAFTAR ISI.............................................................................................................. xii
DAFTAR TABEL...................................................................................................... xiii
DAFTAR GAMBAR ................................................................................................ xiv
BAB 1 PENDAHULUAN ......................................................................................
1
1.1 Latar Belakang......................................................................................
1
1.2 Rumusan Masalah.................................................................................
3
1.3 Batasan Masalah ...................................................................................
3
1.4 Tujuan dan Manfaat ..............................................................................
3
1.5 Sistematika Penelitian...........................................................................
3
BAB 2 TINJAUAN PUSTAKA.............................................................................
5
2.1 Data Mining ..........................................................................................
5
2.1.1 Teknik Data Mining ...................................................................
5
2.1.2 Tahapan Data Mining .................................................................
7
2.2 Algoritma K-Means ..............................................................................
9
2.3 Algoritma Genetika .............................................................................. 11
2.3.1 Struktur Umum Algoritma Genetika .......................................... 13
x
Universitas Sumatera Utara
2.3.2 Teknik Pengkodean .................................................................... 14
2.3.3 Membangkitkan Populasi Awal dan Kromosom ....................... 15
2.3.4 Evaluasi Fitness .......................................................................... 16
2.3.5 Operator Genetika ...................................................................... 16
2.3.6 Terminasi .................................................................................... 18
2.3.7 Parameter Algoritma Genetika ................................................... 18
2.4 Teks Mining .......................................................................................... 19
2.4.1 Tahapan Teks Mining ................................................................. 20
2.4.2 Ekstraksi Dokumen .................................................................... 22
2.5 Term Frequency-Inverse Document Frequency (TF-IDF) ................... 25
2.6 Cosine Similarity .................................................................................. 28
2.7 Kontribusi Penelitian ............................................................................ 29
BAB 3 METODOLOGI PENELITIAN............................................................... 30
3.1 Proses Penelitian .................................................................................... 30
3.2 Tahapan Penelitian ................................................................................ 31
3.3 Jenis dan Sumber Data .......................................................................... 32
3.4 Penentuan Tema Dokumen Berita ........................................................ 34
3.5 Teknik Pengumpulan Data .................................................................... 36
3.6 Preprocessing Dokumen ....................................................................... 36
3.6.1 Tokenizing................................................................................... 37
3.6.2 Filtering ...................................................................................... 38
3.6.3 Stemming ................................................................................... 39
3.7 Pembentukan Kromosom Dokumen ..................................................... 39
3.8 Optimasi Pusat Cluster Awal dengan Algoritma Genetika .................. 41
3.9 Pengelompokan Dokumen dengan K-Means ........................................ 43
3.10 Tahapan Iterasi Pengelompokan K-Means......................................... 44
BAB 4 PEMBAHASAN DAN HASIL.................................................................. 46
4.1 Pembahasan .......................................................................................... 46
4.2 Pemilihan Dokumen ............................................................................. 46
4.3 Representasi Kromosom Dokumen ...................................................... 49
xi
Universitas Sumatera Utara
4.4 Evaluasi Fitness ..................................................................................... 51
4.5 Proses Seleksi Pemilihan Kromosom ................................................... 55
4.6 Crossover Kromosom ........................................................................... 55
4.7 Mutasi Kromosom ................................................................................ 56
4.8 Penentuan Akhir Proses Genetika ........................................................ 57
4.9 Menghitung Kemiripan Dokumen ........................................................ 59
4.10 Pengujian dan Hasil ........................................................................... 69
4.10.1 Pengujian Pusat Cluster Awal Random ................................. 69
4.10.2 Pengujian Pusat Cluster Awal dengan GA ............................ 70
4.10.3 Pengujian Aplikasi ................................................................. 72
BAB 5 KESIMPULAN DAN SARAN.................................................................. 76
1. Kesimpulan ............................................................................................ 76
2. Saran ...................................................................................................... 76
DAFTAR PUSTAKA............................................................................................... 77
DAFTAR PUBLIKASI ILMIAH .......................................................................... 79
xii
Universitas Sumatera Utara
DAFTAR TABEL
Hal.
Tabel 2.1 Perhitungan Pembobotan TF-IDF Term Query ........................................ 28
Tabel 3.1 Tabel Sumber Berita Online ..................................................................... 32
Tabel 3.2 Tabel Daftar Konten Berita ....................................................................... 35
Tabel 4.1 Hasil Ekstraksi Dokumen Konten Berita .................................................. 48
Tabel 4.2 Representasi Kromosom Dokumen Kode Biner ....................................... 50
Tabel 4.3 Nilai Fitness Dokumen Dok1..................................................................... 52
Tabel 4.4 Hasil Perhitungan Fitness Kromosom ...................................................... 54
Tabel 4.5 Hasil Mutasi Kromosom ........................................................................... 56
Tabel 4.6 Hasil Akhir Proses GA Cluster Awal ....................................................... 57
Tabel 4.7 Data Dokumen .......................................................................................... 59
Tabel 4.8 Pembobotan TF-IDF Pada Dokumen ....................................................... 60
Tabel 4.9 Perhitungan Nilai Variabel Pada Rumus Cosine Similarity ..................... 64
Tabel 4.10 Hasil Pengelompokan Akhir K-Means Clustering ................................. 68
Tabel 4.11 Hasil Pengujian Pusat Cluster Awal Random ......................................... 69
Tabel 4.12 Hasil Pengujian Pusat Cluster Awal dengan GA .................................... 70
Tabel 4.13 Tingkat Keberhasilan Pengelompokan Dokumen .................................. 72
xiii
Universitas Sumatera Utara
DAFTAR GAMBAR
Hal.
Gambar 2.1 Proses KDD (Knowledge Discovery in Databases) .............................
7
Gambar 2.2 Ilustrasi tahapan proses dari algoritma genetika................................... 12
Gambar 2.3 Diagram Alir Algoritma Genetika ........................................................ 13
Gambar 2.4 Individu dalam Algoritma Genetika...................................................... 14
Gambar 2.5 Ilustrasi Seleksi dengan Rolette Wheel ................................................. 17
Gambar 2.6 Tahap Preprocessing ............................................................................. 22
Gambar 2.7 Proses Tokenizing ................................................................................. 23
Gambar 2.8 Proses Filtering ..................................................................................... 23
Gambar 2.9 Proses Stemming.................................................................................. 24
Gambar 3.1 Skema Proses Pengelompokan ............................................................. 30
Gambar 3.2 Flowchart PreProcessing Dokumen .................................................... 37
Gambar 3.3 Proses Pembentukan Kromosom Dokumen .......................................... 41
Gambar 3.4 Proses Optimasi Pusat Cluster Awal .................................................... 42
Gambar 3.5 Proses Pengelompokan Dokumen dengan K-Means ............................ 44
Gambar 4.1 Menentukan sumber dokumen .............................................................. 73
Gambar 4.2 Setting Parameter Algoritma Genetika ................................................. 73
Gambar 4.3 Proses Penentuan Pusat Cluster Awal ................................................... 74
Gambar 4.4 Memasukkan Data Pusat Cluster Awal ................................................. 74
Gambar 4.5 Hasil Pengelompokan Dokumen ........................................................... 75
xiv
Universitas Sumatera Utara
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS
MUHAMMAD FAUZI
147038065
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS
Diajukan untuk melengkapi tugas dan memenuhi syarat memperoleh ijazah
Magister Teknik Informatika
MUHAMMAD FAUZI
147038065
PROGRAM STUDI S2 TEKNIK INFORMATIKA
FAKULTAS ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
MEDAN
2017
Universitas Sumatera Utara
PERSETUJUAN
Judul
: OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN
ALGORITMA
GENETIKA
PADA
PENGELOMPOKAN DOKUMEN
Kategori
: TESIS
Nama
: MUHAMMAD FAUZI
Nomor Induk Mahasiswa : 147038065
Program Studi
: MAGISTER(S2) TEKNIK INFORMATIKA
Fakultas
: ILMU KOMPUTER DAN TEKNOLOGI INFORMASI
UNIVERSITAS SUMATERA UTARA
Komisi Pembimbing
:
Pembimbing 2
Pembimbing 1
Dr. Sawaluddin, M.IT
Prof. Dr. Muhammad Zarlis
Diketahui/disetujui oleh
Program Studi Magister(S2) Teknik Informatika
Ketua,
Prof. Dr. Muhammad Zarlis
NIP. 19570701 198601 1 003
i
Universitas Sumatera Utara
PERNYATAAN
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
TESIS
Saya mengakui semua tesis ini adalah hasil karya saya sendiri kecuali beberapa
kutipan dan ringkasan yang masing-masing telah disebutkan sumbernya.
Medan,
April 2017
Muhammad Fauzi
147038065
ii
Universitas Sumatera Utara
PERNYATAAN PERSETUJUAN PUBLIKASI
KARYA ILMIAH UNTUK KEPENTINGAN
AKADEMIS
Sebagai sivitas akademika Universitas Sumatera Utara, saya yang bertanda tangan di
bawah ini :
Nama
: Muhammad Fauzi
NIM
: 147038065
Program Studi
: Magister(S2) Teknik Informatika
Jenis Karya Ilmiah
: Tesis
Demi pengembangan ilmu pengetahuan, menyetujui untuk memberikan kepada
Universitas Sumatera Utara Hak Bebas Royalti Non-Eksklusif(Non-Exclusive Royalty
Free Right) atas tesis saya yang berjudul :
OPTIMASI PUSAT CLUSTER AWAL K-MEANS
DENGAN ALGORITMA GENETIKA PADA
PENGELOMPOKAN DOKUMEN
Beserta perangkat yang ada (jika diperlukan). Dengan Hak Bebas Royalti NonEksklusif ini, Universitas Sumatera Utara berhak menyimpan, mengalih media,
memformat, mengelola dalam bentuk database, merawat dan mempublikasikan tesis
saya tanpa meminta izin dari saya selama tetap mencantumkan nama saya sebagai
penulis dan sebagai pemegang dan/atau sebagai pemilik hak cipta.
Demikian pernyataan ini dibuat dengan sebenarnya.
Medan,
April 2017
Muhammad Fauzi
147038065
iii
Universitas Sumatera Utara
Telah diuji pada
Tanggal
: 28 April 2017
PANITIA PENGUJI TESIS
Ketua
: Prof. Dr. Muhammad Zarlis
Anggota
: 1. Dr.Sawaluddin, M.IT
2. Prof. Dr. Tulus
3. Dr. Pahala Sirait, S.T, M.Kom
iv
Universitas Sumatera Utara
RIWAYAT HIDUP
DATA PRIBADI
Nama
: Muhammad Fauzi, S.T, M.Kom
Tempat dan Tanggal Lahir
: Medan, 15 Agustus 1991
Alamat Rumah
: Jl. Tawang Mangu Lingk 1 Musyawarah,
Kelurahan Kwala Bingai, Stabat.
Telepon / HP
: 085270014645
: chayo.zie@gmail.com
Instansi tempat bekerja
: Politeknik Unggul LP3M
Alamat Kantor
: Jl. Iskandar Muda No.3 CDEF, Medan.
DATA PENDIDIKAN
SD
: SDN 050659 Stabat
TAMAT : 2003
SMP
: MTsN 1 Stabat
TAMAT : 2006
SMA
: MAN 2 Tanjung Pura
TAMAT : 2009
S1
: Teknik Informatika UNIMAL
TAMAT : 2014
S2
: Teknik Informatika USU
TAMAT : 2017
v
Universitas Sumatera Utara
UCAPAN TERIMA KASIH
Bismillahirrahmaanirrahiim, Puji Syukur kehadirat Allah SWT, yang telah
melimpahkan rahmat dan karunia-Nya kepada penulis, sehingga penulis dapat
menyelesaikan tesis ini yang berjudul : Optimasi Pusat Cluster Awal K-Means
dengan Algoritma Genetika Pada Pengelompokan Dokumen
dengan sebaik-
baiknya.
Penyusunan Tesis ini merupakan salah satu syarat untuk dapat memperoleh gelar
Magister (S2) Teknik Informatika Pada Universitas Sumatera Utara. Penulis
menyadari apa yang penulis tuangkan dalam Tesis ini tidak terlepas dari peranan
seluruh dosen, teman-teman dan seluruh keluarga yang turut memberikan bantuan
moril maupun materil. Untuk itu penulis menyampaikan terima kasih kepada:
1. Rektor Universitas Sumatera Utara, Bapak Prof. Dr. Runtung Sitepu, S.H.,
M.Hum., atas kesempatan yang telah diberikan kepada penulis untuk dapat
mengikuti dan menyelesaikan pendidikan Program Magister Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
2. Dekan Fakultas Ilmu Komputer dan Teknologi Informasi (Fasilkom-TI)
Universitas Sumatera Utara, Bapak Prof. Dr. Opim Salim Sitompul, yang sudah
banyak memberikan bimbingan dan arahan.
3. Ketua Program Studi Magister Teknik Informatika, Bapak Prof. Dr. Muhammad
Zarlis. Sekretaris Program Studi Teknik Informatika, Bapak Syahril Efendi, S.Si.,
M.IT. Beserta seluruh Staff Pengajar Program Studi Magister Teknik Informatika
Fakultas Ilmu Komputer dan Teknologi Informasi Universitas Sumatera Utara.
4. Bapak Prof. Dr. Muhammad Zarlis selaku Pembimbing Utama, demikian juga
kepada Bapak Dr. Sawaluddin, M.IT selaku Pembimbing Kedua yang dengan
penuh kesabaran menuntun dan membimbing penulis hingga selesainya tesis ini
dengan baik.
5. Bapak Prof. Dr. Tulus dan Bapak Dr. Pahala Sirait, S.T, M.Kom, sebagai Dosen
Pembanding yang telah memberikan saran dan masukan serta arahan yang baik
demi penyelesaian tesis ini.
vi
Universitas Sumatera Utara
6. Ayahanda tercinta Drs. Nurdin Ahmad, Ibunda tercinta Dra. Dasni, serta adikadik, keponakan, kakak kakakku tersayang serta seluruh keluarga besar yang
selalu memberi do a dan dukungan kepada penulis.
7. Seluruh staf pegawai Program Studi S2 Teknik Informatika Fakultas Ilmu
Komputer dan Teknik Informatika, serta teman-teman seperjuangan mahasiswa/i
Kom-C 2014.
8. Dan seluruh pihak yang tidak dapat disebutkan satu persatu dalam tesis ini, sekali
lagi terima kasih atas segala bantuan dan doa yang telah diberikan.
Penulis menyadari bahwa penelitian ini masih jauh dari kata sempurna, ini
dikarenakan oleh keterbatasan, kemampuan dan pengetahuan penulis. Harapan
penulis, semoga penelitian ini bermanfaat bagi penulis khususnya dan pembaca pada
umumnya. Oleh karena itu penulis mengucapkan banyak terima kasih, semoga Allah
SWT membalas kebaikan yang telah diberikan. Aamiin.
Medan,
Penulis,
April 2017
Muhammad Fauzi
NIM: 147038065
vii
Universitas Sumatera Utara
ABSTRAK
Pengelompokan dokumen berdasarkan karakteristik kata yang ada pada dokumen
dilakukan untuk memudahkan mengorganisir dokumen pada kebutuhan lebih lanjut.
Algoritma K-Means clustering merupakan salah satu algoritma pengelompokan yang
melakukan pengelompokan secara iteratif dengan melakukan partisi set data ke dalam
sejumlah K cluster. Namun hasil pada K-Means clustering tersebut sangat ditentukan
pada penentuan pusat cluster awal yang pada umumnya ditentukan secara random.
Pada penelitian ini dilakukan penentuan pusat cluster awal K-Means untuk masalah
pengelompokan dokumen dengan memanfaatkan algoritma genetika sebagai algoritma
yang mengoptimasi pusat cluster awal K-Means tersebut. Pada hasil pengujian
pengelompokan dokumen berita yang dilakukan sebanyak 5 kali untuk pusat cluster
awal secara random tingkat keberhasilan mencapai 26.66 % sedangkan untuk pusat
cluster awal dengan algoritma genetika tingkat keberhasilan mencapai 46.66 %.
Kata Kunci : Pengelompokan, K-Means Clustering, Pusat Cluster Awal, Algoritma
Genetika, Optimasi, Dokumen
viii
Universitas Sumatera Utara
OPTIMIZATION OF INITIAL CLUSTER CENTER K-MEANS WITH
GENETIC ALGORITHM IN DOCUMENTS CLUSTERING
ABSTRACT
Clustering a data set of documents based on certain data points in documents are an
easy way to organize document for extension to work. K-Means clustering algorithm
is one of iterative cluster algorithm to partition a set of entities into K cluster.
Unfortunately, resulting in K Means cluster is depending on the initial cluster center
that generally assigned randomly. In this reserach, determining initial cluster center
K-Means for documents clustering are investigated by using genetic algorithm as an
algorithm which optimize initial cluster center of K-Means. Based on the result of this
test, clustering news document with 5 times for initial cluster center randomly has
26.66% for level of success, meanwhile for initial cluster center by using genetic
algorithm has 46.66% for level of success.
Keyword : Clustering, K-Means Clustering, Initial Cluster Center, Genetic Algorithm,
Optimization, Document
ix
Universitas Sumatera Utara
DAFTAR ISI
Hal
HALAMAN JUDUL
PERSETUJUAN ........................................................................................................
i
PERNYATAAN ........................................................................................................
ii
PERSETUJUAN PUBLIKASI ................................................................................. iii
PANITIA PENGUJI ................................................................................................. iv
RIWAYAT HIDUP ................................................................................................... vi
UCAPAN TERIMA KASIH...................................................................................... vi
ABSTRAK ................................................................................................................. viii
ABSTRACT............................................................................................................... xi
DAFTAR ISI.............................................................................................................. xii
DAFTAR TABEL...................................................................................................... xiii
DAFTAR GAMBAR ................................................................................................ xiv
BAB 1 PENDAHULUAN ......................................................................................
1
1.1 Latar Belakang......................................................................................
1
1.2 Rumusan Masalah.................................................................................
3
1.3 Batasan Masalah ...................................................................................
3
1.4 Tujuan dan Manfaat ..............................................................................
3
1.5 Sistematika Penelitian...........................................................................
3
BAB 2 TINJAUAN PUSTAKA.............................................................................
5
2.1 Data Mining ..........................................................................................
5
2.1.1 Teknik Data Mining ...................................................................
5
2.1.2 Tahapan Data Mining .................................................................
7
2.2 Algoritma K-Means ..............................................................................
9
2.3 Algoritma Genetika .............................................................................. 11
2.3.1 Struktur Umum Algoritma Genetika .......................................... 13
x
Universitas Sumatera Utara
2.3.2 Teknik Pengkodean .................................................................... 14
2.3.3 Membangkitkan Populasi Awal dan Kromosom ....................... 15
2.3.4 Evaluasi Fitness .......................................................................... 16
2.3.5 Operator Genetika ...................................................................... 16
2.3.6 Terminasi .................................................................................... 18
2.3.7 Parameter Algoritma Genetika ................................................... 18
2.4 Teks Mining .......................................................................................... 19
2.4.1 Tahapan Teks Mining ................................................................. 20
2.4.2 Ekstraksi Dokumen .................................................................... 22
2.5 Term Frequency-Inverse Document Frequency (TF-IDF) ................... 25
2.6 Cosine Similarity .................................................................................. 28
2.7 Kontribusi Penelitian ............................................................................ 29
BAB 3 METODOLOGI PENELITIAN............................................................... 30
3.1 Proses Penelitian .................................................................................... 30
3.2 Tahapan Penelitian ................................................................................ 31
3.3 Jenis dan Sumber Data .......................................................................... 32
3.4 Penentuan Tema Dokumen Berita ........................................................ 34
3.5 Teknik Pengumpulan Data .................................................................... 36
3.6 Preprocessing Dokumen ....................................................................... 36
3.6.1 Tokenizing................................................................................... 37
3.6.2 Filtering ...................................................................................... 38
3.6.3 Stemming ................................................................................... 39
3.7 Pembentukan Kromosom Dokumen ..................................................... 39
3.8 Optimasi Pusat Cluster Awal dengan Algoritma Genetika .................. 41
3.9 Pengelompokan Dokumen dengan K-Means ........................................ 43
3.10 Tahapan Iterasi Pengelompokan K-Means......................................... 44
BAB 4 PEMBAHASAN DAN HASIL.................................................................. 46
4.1 Pembahasan .......................................................................................... 46
4.2 Pemilihan Dokumen ............................................................................. 46
4.3 Representasi Kromosom Dokumen ...................................................... 49
xi
Universitas Sumatera Utara
4.4 Evaluasi Fitness ..................................................................................... 51
4.5 Proses Seleksi Pemilihan Kromosom ................................................... 55
4.6 Crossover Kromosom ........................................................................... 55
4.7 Mutasi Kromosom ................................................................................ 56
4.8 Penentuan Akhir Proses Genetika ........................................................ 57
4.9 Menghitung Kemiripan Dokumen ........................................................ 59
4.10 Pengujian dan Hasil ........................................................................... 69
4.10.1 Pengujian Pusat Cluster Awal Random ................................. 69
4.10.2 Pengujian Pusat Cluster Awal dengan GA ............................ 70
4.10.3 Pengujian Aplikasi ................................................................. 72
BAB 5 KESIMPULAN DAN SARAN.................................................................. 76
1. Kesimpulan ............................................................................................ 76
2. Saran ...................................................................................................... 76
DAFTAR PUSTAKA............................................................................................... 77
DAFTAR PUBLIKASI ILMIAH .......................................................................... 79
xii
Universitas Sumatera Utara
DAFTAR TABEL
Hal.
Tabel 2.1 Perhitungan Pembobotan TF-IDF Term Query ........................................ 28
Tabel 3.1 Tabel Sumber Berita Online ..................................................................... 32
Tabel 3.2 Tabel Daftar Konten Berita ....................................................................... 35
Tabel 4.1 Hasil Ekstraksi Dokumen Konten Berita .................................................. 48
Tabel 4.2 Representasi Kromosom Dokumen Kode Biner ....................................... 50
Tabel 4.3 Nilai Fitness Dokumen Dok1..................................................................... 52
Tabel 4.4 Hasil Perhitungan Fitness Kromosom ...................................................... 54
Tabel 4.5 Hasil Mutasi Kromosom ........................................................................... 56
Tabel 4.6 Hasil Akhir Proses GA Cluster Awal ....................................................... 57
Tabel 4.7 Data Dokumen .......................................................................................... 59
Tabel 4.8 Pembobotan TF-IDF Pada Dokumen ....................................................... 60
Tabel 4.9 Perhitungan Nilai Variabel Pada Rumus Cosine Similarity ..................... 64
Tabel 4.10 Hasil Pengelompokan Akhir K-Means Clustering ................................. 68
Tabel 4.11 Hasil Pengujian Pusat Cluster Awal Random ......................................... 69
Tabel 4.12 Hasil Pengujian Pusat Cluster Awal dengan GA .................................... 70
Tabel 4.13 Tingkat Keberhasilan Pengelompokan Dokumen .................................. 72
xiii
Universitas Sumatera Utara
DAFTAR GAMBAR
Hal.
Gambar 2.1 Proses KDD (Knowledge Discovery in Databases) .............................
7
Gambar 2.2 Ilustrasi tahapan proses dari algoritma genetika................................... 12
Gambar 2.3 Diagram Alir Algoritma Genetika ........................................................ 13
Gambar 2.4 Individu dalam Algoritma Genetika...................................................... 14
Gambar 2.5 Ilustrasi Seleksi dengan Rolette Wheel ................................................. 17
Gambar 2.6 Tahap Preprocessing ............................................................................. 22
Gambar 2.7 Proses Tokenizing ................................................................................. 23
Gambar 2.8 Proses Filtering ..................................................................................... 23
Gambar 2.9 Proses Stemming.................................................................................. 24
Gambar 3.1 Skema Proses Pengelompokan ............................................................. 30
Gambar 3.2 Flowchart PreProcessing Dokumen .................................................... 37
Gambar 3.3 Proses Pembentukan Kromosom Dokumen .......................................... 41
Gambar 3.4 Proses Optimasi Pusat Cluster Awal .................................................... 42
Gambar 3.5 Proses Pengelompokan Dokumen dengan K-Means ............................ 44
Gambar 4.1 Menentukan sumber dokumen .............................................................. 73
Gambar 4.2 Setting Parameter Algoritma Genetika ................................................. 73
Gambar 4.3 Proses Penentuan Pusat Cluster Awal ................................................... 74
Gambar 4.4 Memasukkan Data Pusat Cluster Awal ................................................. 74
Gambar 4.5 Hasil Pengelompokan Dokumen ........................................................... 75
xiv
Universitas Sumatera Utara