Text Mining Preprocessing Level Entitas dan Aspek

14 4. Jika tipe awalan adalah “none” maka berhenti. Jika tipe awalan adalah bukan “none” maka awalan dapat dilihat pada Tabel . Hapus awalan jika ditemukan. Tabel 2.2 Kombinasi Awalan dan Akhiran Awalan Akhiran yang tidak diizinkan be- -i di- -an ke- -i, -kan me- -an se- -i, -kan Tabel 2.3 Cara Menentukan Tipe Awalan untuk Awalan “te-” Following characters Tipe awalan set 1 set 2 set 3 set 4 “-r-” “-r-” - - none “-r-” vowel - - ter- luluh “-r-” notvowel or “-r-” “-er-” vowel ter “-r-” notvowel or “-r-” “-er-” not vowel ter “-r-” notvowel or “-r-” not “-er-” - ter notvowel or “-r-” “-er-” vowel - none notvowel or “-r-” “-er-” not vowel - te 15 Tabel 2.4 Jenis Awalan Berdasarkan Tipe Tipe Awalan Awalan yang harus dihapus di- di- ke- ke- se- se- te- te- ter- ter- ter- luluh ter- luluh Untuk mengatasi keterbatasan pada algoritma di atas, maka ditambahkan aturan-aturan dibawah ini Agusta, 2009: 1. Aturan untuk reduplikasi.  Jika kedua kata yang dihubungkan oleh kata penghubung adalah kata yang sama maka root word adalah bentuk tunggalnya, contoh : “buku-buku” root word-nya adalah “buku”.  Kata lain, misalnya “bolak-balik”, “berbalas-balasan”, dan ”seolah-olah”. Untuk mendapatkan root word-nya, kedua kata diartikan secara terpisah. Jika keduanya memiliki root word yang sama maka diubah menjadi bentuk tunggal, contoh: kata “berbalas-balasan”, “berbalas” dan “balasan” memiliki root word yang sama yaitu “balas”, maka root 16 word “berbalas-balasan” adalah “balas”. Sebaliknya, pada kata “bolak-balik”, “bolak” dan “balik” memiliki root word yang berbeda, maka root word-nya adalah “bolak-balik”. 2. Tambahan bentuk awalan dan akhiran serta aturannya.  Untuk tipe awalan “mem-“, kata yang diawali dengan awalan “memp-” memiliki tipe awalan “mem-”.  Tipe awalan “meng-“, kata yang diawali dengan awalan “mengk-” memiliki tipe awalan “meng-”. Contoh proses stemming: Input: merasa bahagia temukan dirimu kekasihku Output: rasa bahagia temu diri kasih

2.4.4 Perbedaan Perlakuan Preprocessing

Pada klasifikasi teks berdasarkan kategori artikel, kata-kata seperti “tidak”, “tanpa”, dan “bukan” dianggap tidak penting sehingga dimasukkan ke dalam daftar kata yang bisa dihilangkan stopword. Namun, pada klasifikasi teks emosi, kata “tidak”, “tanpa”, dan “bukan” menjadi sangat berarti dan tidak boleh dihilangkan. 17 Perlakuan proses sebelum klasifikasi sangat penting supaya data yang diolah benar-benar mewakili maksud dari sebuah dokumen. Kata “tanpa cinta” dan “tidak senang” dapat menempatkan dokumen dalam kelas yang berbeda Destuardi dan Sumpeno, 2009. Sebagai contoh, dokumen yang mengandung kata “tidak senang” akan masuk ke kelas yang berbeda dengan dokumen yang mengandung kata ”senang”.

2.5 Pembobotan tf-idf

Pembobotan dilakukan untuk mendapatkan nilai dari kata term yang telah diekstrak. Metode pembobotan yang digunakan yaitu pembobotan tf-idf. Pada tahap ini, setiap dokumen diwujudkan sebagai sebuah vector dengan elemen sebanyak kata term yang didapat dari tahap ekstraksi dokumen. Vector tersebut beranggotakan bobot dari setiap term yang didapat dengan perhitungan bobot tf-idf. Metode tf-idf merupakan metode pembobotan dengan menggunakan integrasi antara term frequency tf dan inverse document frequency idf. Metode tf-idf dirumuskan sebagai berikut: , = , ∗ � � = � � 2.1 18 , adalah jumlah kemunculan kata t pada dokumen d, � adalah jumlah dokumen pada kumpulan dokumen, dan adalah jumlah dokumen yang mengandung term t. Fungsi metode ini untuk mencari representasi nilai dari tiap-tiap dokumen dari kumpulan data training. Representasi nilai akan dibentuk menjadi vector antara dokumen dengan kata documents with terms. Kesamaan antara dokumen dengan cluster ditentukan oleh sebuah prototype cluster yang disebut juga dengan cluster centroid Putri, 2013.

2.6 Normalisasi

Metode normalisasi yang digunakan pada penelitian ini adalah metode normalisasi z-score dan metode normalisasi min-max.

2.6.1 Normalisasi Z-Score

Normalisasi z-score umumnya digunakan jika nilai minimum dan maksimum sebuah atribut tidak diketahui. Normalisasi z-score dirumuskan sebagai berikut: ′ = − �̅ � � ⁄ 2.2 ′ adalah nilai yang baru, adalah nilai yang lama, �̅ adalah rata-rata dari atribut �, dan � � adalah nilai standar deviasi dari atribut � Mustaffa dan Yusof, 2011. 19

2.6.2 Normalisasi Min-Max

Normalisasi min-max dirumuskan sebagai berikut: � = � −� � �� −� 2.3 � adalah nilai baru untuk variable �, � adalah nilai lama untuk variabel �, � adalah nilai minimum dalam data set, dan � �� adalah nilai maksimum dalam data set Mustaffa dan Yusof, 2011.

2.7 Clustering

Sejumlah besar data dikumpulkan setiap hari dalam lingkup bisnis dan sains. Data ini perlu dianalisis dengan tujuan memperoleh informasi menarik. Salah satu metode analisis yang cukup populer adalah clustering. Clustering merupakan salah satu alat penting dalam data mining yang membantu peneliti mengetahui pengelompokan secara natural atribut-atribut dalam data. Analisis cluster dipakai dalam berbagai bidang antara lain data mining, pattern recognition, pattern classification, data compression, machine learning, image analysis, dan bioinformatics. Clustering adalah metode yang memungkinkan sebuah cluster terbentuk karena kesamaan karakteristik anggota-anggota cluster tersebut. Kriteria untuk menentukan kesamaan tergantung pada implementasi. Algoritma clustering dapat dikelompokkan menjadi dua kelas besar yaitu hierarchical dan partitioning. 20 Algoritma Hierarchical clustering menggunakan pemisahan secara bersarang. Teknik yang termasuk hierarchical clustering yaitu Divisive clustering dan Agglomerative clustering. Divisive clustering menganggap keseluruhan data merupakan sebuah cluster kemudian membagi cluster tersebut menjadi lebih kecil. Agglomerative clustering menganggap sebuah data merupakan sebuah cluster kemudian menggabung cluster tersebut menjadi lebih besar. Algoritma Partition clustering tidak menggunakan struktur cluster seperti dendogram yang terbentuk melalui teknik hierarchical. Metode partition diterapkan pada data sets besar untuk menghindari pemakaian komputasi saat pembentukan dendogram. Masalah yang dijumpai pada algoritma partition yaitu pemilihan jumlah cluster Agha dan Ashour, 2012.

2.7.1 K-Means Clustering

K-Means clustering merupakan salah satu teknik partition clustering yang paling banyak digunakan. K-Means diawali dengan menginisialisasi K pusat cluster. Tiap titik data akan dimasukkan pada cluster yang tersedia berdasarkan kedekatan dengan pusat cluster. Langkah berikutnya adalah menghitung rata-rata setiap cluster untuk meng-update pusat cluster. Update terjadi sebagai hasil dari perubahan keanggotaan cluster. Proses akan berulang sampai pusat cluster tidak berubah. Langkah-langkah algoritma K-Means sebagai berikut: 21 1. Initialization: pilih K input vector data sebagai inisialisasi pusat cluster. 2. Nearest-neighbor search: untuk setiap input vector, temukan pusat cluster terdekat, dan masukkan input vector pada cluster terdekat. 3. Mean update: update pusat cluster menggunakan rata-rata centroid vector yang tergabung dalam setiap cluster. 4. Stopping rule: ulangi langkah 2 dan 3 sampai tidak ada perubahan nilai rata-rata mean. Pemilihan pusat awal cluster sangat mempengaruhi hasil K- Means clustering sehingga diperlukan tahap tertentu untuk memilih pusat awal cluster yang optimal. Pemilihan dapat dilakukan secara random atau dengan menjadikan k data pertama sebagai pusat awal cluster, k adalah jumlah cluster. Sebagai alternatif, pemilihan dilakukan dengan mencoba beragam kombinasi pusat awal kemudian memilih kombinasi yang paling optimal. Namun, melakukan uji coba terhadap kombinasi pusat awal tidak praktis terlebih untuk data sets yang besar. Pemilihan pusat atau centroid awal dapat dilakukan dengan algoritma tertentu. Dalam penelitian ini, algoritma yang digunakan adalah variance initialization. Algoritma ini akan menemukan dimensi dengan nilai variance terbesar, melakukan sort, membagi data menjadi sejumlah bagian, mencari median pada setiap bagian, dan menjadikan median tersebut sebagai centroid awal cluster Al-Daoud, 2007. 22

2.7.2 Variance Initialization

Variance initialization adalah salah satu algoritma yang digunakan untuk menentukan centroid awal pada proses clustering. Langkah-langkah variance initialization adalah sebagai berikut Al- Daoud, 2007: 1. Hitung nilai variance data pada setiap dimensi kolom data. 2. Temukan kolom dengan nilai variance terbesar, kemudian sort data. 3. Bagi keseluruhan data menjadi K bagian, K adalah jumlah cluster. 4. Temukan median nilai tengah pada setiap bagian. 5. Gunakan vector data median setiap bagian sebagai centroid awal cluster.

2.8 Cosine Similarity

Metode cosine similarity adalah metode untuk menghitung similaritas antara dua dokumen. Penentuan kesesuaian dokumen dengan query dipandang sebagai pengukuran similarity measure antara vector dokumen D dengan vector query Q. Perhitungan cosine similarity dirumuskan sebagai berikut: � �� �, = ∑ � . = √∑ � = .√∑ = 2.4