14
4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan
adalah bukan “none” maka awalan dapat dilihat pada Tabel .
Hapus awalan jika ditemukan.
Tabel 2.2 Kombinasi Awalan dan Akhiran Awalan
Akhiran yang tidak diizinkan be-
-i di-
-an ke-
-i, -kan me-
-an se-
-i, -kan
Tabel 2.3 Cara Menentukan Tipe Awalan untuk Awalan “te-”
Following characters Tipe
awalan set 1
set 2 set 3
set 4 “-r-”
“-r-” -
- none
“-r-” vowel
- -
ter- luluh “-r-”
notvowel or “-r-”
“-er-” vowel
ter “-r-”
notvowel or “-r-”
“-er-” not vowel
ter “-r-”
notvowel or “-r-” not “-er-”
- ter
notvowel or “-r-”
“-er-” vowel
- none
notvowel or “-r-”
“-er-” not vowel
- te
15
Tabel 2.4 Jenis Awalan Berdasarkan Tipe Tipe Awalan
Awalan yang harus dihapus di-
di- ke-
ke- se-
se- te-
te- ter-
ter- ter- luluh
ter- luluh
Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini Agusta, 2009:
1. Aturan untuk reduplikasi.
Jika kedua kata yang dihubungkan oleh kata penghubung
adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh : “buku-buku” root word-nya adalah
“buku”.
Kata lain, misalnya “bolak-balik”, “berbalas-balasan”, dan
”seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root
word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan”
memiliki root word yang sama yaitu “balas”, maka root
16
word “berbalas-balasan” adalah “balas”. Sebaliknya, pada
kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-nya adalah
“bolak-balik”. 2.
Tambahan bentuk awalan dan akhiran serta aturannya.
Untuk tipe awalan “mem-“, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”.
Tipe awalan “meng-“, kata yang diawali dengan awalan
“mengk-” memiliki tipe awalan “meng-”.
Contoh proses stemming: Input:
merasa bahagia
temukan dirimu
kekasihku
Output: rasa
bahagia temu
diri kasih
2.4.4 Perbedaan Perlakuan Preprocessing
Pada klasifikasi teks berdasarkan kategori artikel, kata-kata seperti “tidak”, “tanpa”, dan “bukan” dianggap tidak penting sehingga
dimasukkan ke dalam daftar kata yang bisa dihilangkan stopword. Namun, pada klasifikasi teks emosi,
kata “tidak”, “tanpa”, dan “bukan” menjadi sangat berarti dan tidak boleh dihilangkan.
17
Perlakuan proses sebelum klasifikasi sangat penting supaya data yang diolah benar-benar mewakili maksud dari sebuah dokumen. Kata
“tanpa cinta” dan “tidak senang” dapat menempatkan dokumen dalam kelas yang berbeda Destuardi dan Sumpeno, 2009.
Sebagai contoh, dokumen yang mengandung kata “tidak senang”
akan masuk ke kelas yang berbeda dengan dokumen yang mengandung kata ”senang”.
2.5 Pembobotan tf-idf
Pembobotan dilakukan untuk mendapatkan nilai dari kata term yang telah diekstrak. Metode pembobotan yang digunakan yaitu pembobotan tf-idf.
Pada tahap ini, setiap dokumen diwujudkan sebagai sebuah vector dengan elemen sebanyak kata term yang didapat dari tahap ekstraksi dokumen.
Vector tersebut beranggotakan bobot dari setiap term yang didapat dengan perhitungan bobot tf-idf.
Metode tf-idf merupakan metode pembobotan dengan menggunakan integrasi antara term frequency tf dan inverse document frequency idf.
Metode tf-idf dirumuskan sebagai berikut: ,
= ,
∗ � �
= �
�
2.1
18
, adalah jumlah kemunculan kata t pada dokumen d, � adalah jumlah dokumen pada kumpulan dokumen, dan
adalah jumlah dokumen yang mengandung term t.
Fungsi metode ini untuk mencari representasi nilai dari tiap-tiap dokumen dari kumpulan data training. Representasi nilai akan dibentuk
menjadi vector antara dokumen dengan kata documents with terms. Kesamaan antara dokumen dengan cluster ditentukan oleh sebuah prototype
cluster yang disebut juga dengan cluster centroid Putri, 2013.
2.6 Normalisasi
Metode normalisasi yang digunakan pada penelitian ini adalah metode normalisasi z-score dan metode normalisasi min-max.
2.6.1 Normalisasi Z-Score
Normalisasi z-score umumnya digunakan jika nilai minimum dan maksimum sebuah atribut tidak diketahui. Normalisasi z-score
dirumuskan sebagai berikut:
′
= − �̅ �
�
⁄ 2.2
′
adalah nilai yang baru, adalah nilai yang lama, �̅ adalah rata-rata
dari atribut �, dan �
�
adalah nilai standar deviasi dari atribut �
Mustaffa dan Yusof, 2011.
19
2.6.2 Normalisasi Min-Max
Normalisasi min-max dirumuskan sebagai berikut: � =
� −� �
��
−�
2.3 � adalah nilai baru untuk variable �, � adalah nilai lama untuk
variabel �, �
adalah nilai minimum dalam data set, dan �
��
adalah nilai maksimum dalam data set Mustaffa dan Yusof, 2011.
2.7 Clustering
Sejumlah besar data dikumpulkan setiap hari dalam lingkup bisnis dan sains. Data ini perlu dianalisis dengan tujuan memperoleh informasi menarik.
Salah satu metode analisis yang cukup populer adalah clustering. Clustering merupakan salah satu alat penting dalam data mining yang
membantu peneliti mengetahui pengelompokan secara natural atribut-atribut dalam data. Analisis cluster dipakai dalam berbagai bidang antara lain data
mining, pattern recognition, pattern classification, data compression, machine learning, image analysis, dan bioinformatics.
Clustering adalah metode yang memungkinkan sebuah cluster terbentuk karena kesamaan karakteristik anggota-anggota cluster tersebut.
Kriteria untuk menentukan kesamaan tergantung pada implementasi. Algoritma clustering dapat dikelompokkan menjadi dua kelas besar yaitu
hierarchical dan partitioning.
20
Algoritma Hierarchical clustering menggunakan pemisahan secara bersarang. Teknik yang termasuk hierarchical clustering yaitu Divisive
clustering dan Agglomerative clustering. Divisive clustering menganggap keseluruhan data merupakan sebuah cluster kemudian membagi cluster
tersebut menjadi lebih kecil. Agglomerative clustering menganggap sebuah data merupakan sebuah cluster kemudian menggabung cluster tersebut
menjadi lebih besar. Algoritma Partition clustering tidak menggunakan struktur cluster
seperti dendogram yang terbentuk melalui teknik hierarchical. Metode partition diterapkan pada data sets besar untuk menghindari pemakaian
komputasi saat pembentukan dendogram. Masalah yang dijumpai pada algoritma partition yaitu pemilihan jumlah cluster Agha dan Ashour, 2012.
2.7.1 K-Means Clustering
K-Means clustering merupakan salah satu teknik partition clustering yang paling banyak digunakan. K-Means diawali dengan
menginisialisasi K pusat cluster. Tiap titik data akan dimasukkan pada cluster yang tersedia berdasarkan kedekatan dengan pusat cluster.
Langkah berikutnya adalah menghitung rata-rata setiap cluster untuk meng-update pusat cluster. Update terjadi sebagai hasil dari perubahan
keanggotaan cluster. Proses akan berulang sampai pusat cluster tidak berubah. Langkah-langkah algoritma K-Means sebagai berikut:
21
1. Initialization: pilih K input vector data sebagai inisialisasi pusat
cluster. 2.
Nearest-neighbor search: untuk setiap input vector, temukan pusat cluster terdekat, dan masukkan input vector pada cluster
terdekat. 3.
Mean update: update pusat cluster menggunakan rata-rata centroid vector yang tergabung dalam setiap cluster.
4. Stopping rule: ulangi langkah 2 dan 3 sampai tidak ada perubahan
nilai rata-rata mean. Pemilihan pusat awal cluster sangat mempengaruhi hasil K-
Means clustering sehingga diperlukan tahap tertentu untuk memilih pusat awal cluster yang optimal. Pemilihan dapat dilakukan secara
random atau dengan menjadikan k data pertama sebagai pusat awal cluster, k adalah jumlah cluster. Sebagai alternatif, pemilihan dilakukan
dengan mencoba beragam kombinasi pusat awal kemudian memilih kombinasi yang paling optimal. Namun, melakukan uji coba terhadap
kombinasi pusat awal tidak praktis terlebih untuk data sets yang besar. Pemilihan pusat atau centroid awal dapat dilakukan dengan
algoritma tertentu. Dalam penelitian ini, algoritma yang digunakan adalah variance initialization. Algoritma ini akan menemukan dimensi
dengan nilai variance terbesar, melakukan sort, membagi data menjadi sejumlah bagian, mencari median pada setiap bagian, dan menjadikan
median tersebut sebagai centroid awal cluster Al-Daoud, 2007.
22
2.7.2 Variance Initialization
Variance initialization adalah salah satu algoritma yang digunakan untuk menentukan centroid awal pada proses clustering.
Langkah-langkah variance initialization adalah sebagai berikut Al- Daoud, 2007:
1. Hitung nilai variance data pada setiap dimensi kolom data.
2. Temukan kolom dengan nilai variance terbesar, kemudian sort
data. 3.
Bagi keseluruhan data menjadi K bagian, K adalah jumlah cluster.
4. Temukan median nilai tengah pada setiap bagian.
5.
Gunakan vector data median setiap bagian sebagai centroid awal cluster.
2.8 Cosine Similarity
Metode cosine similarity adalah metode untuk menghitung similaritas antara dua dokumen. Penentuan kesesuaian dokumen dengan query
dipandang sebagai pengukuran similarity measure antara vector dokumen D dengan vector query Q. Perhitungan cosine similarity dirumuskan
sebagai berikut: � �� �, =
∑ � .
=
√∑ �
=
.√∑
=
2.4