PENDAHULUAN SISTEM PENCARIAN DOKUMEN BERITA BERBAHASA INDONESIA MENGGUNAKAN PARTITIONING AROUND MEDOIDS (PAM).

53 Penyimpanan dokumen secara digital meningkat dengan pesat seiring meningkatnya penggunaan komputer. Masalah yang timbul dari hal itu adalah sulitnya mengakses informasi yang dibutuhkan secara cepat dan akurat. Dari masalah tersebut muncul kebutuhan untuk ekstraksi informasi secara otomatis dari kumpulan data tekstual yang besar agar mendapatkan sekumpulan informasi yang sesuai dengan kebutuhan. Solusi dari permasalahan tersebut dapat diatasi dengan pencarian informasi menggunakan metode text mining. Text mining merupakan proses menggali, mengolah, mengatur informasi dengan cara menganalisa pola, hubungan, juga aturan-aturan yang ada dalam data tekstual semi terstruktur atau tidak terstruktur. Selain klasifikasi, text mining juga digunakan untuk menangani masalah clustering, information extraction, dan information retrival [1] Salah satu metode yang sering digunakan dalam bidang text mining adalah metode clustering. Dalam bidang Text Mining, metode clustering telah diterapkan pada berbagai sisi, misalnya dalam mempartisi corpus [2] , mengekstrak konsep [3] , atau meningkatkan kinerja clustering dengan membangun Sistem temu Kembali berbasis konsep [4] Sementara pada penelitian ini, akan dikembangkan suatu system pencarian dokumen menggunakan Partitioning Around Medoids PAM. Park dan Jun menawarkan algoritma K-Medoids PAM dimana menurut penelitiannya algoritma ini menghasilkan kinerja yang baik dibandingkan K-Means dan dengan waktu yang lebih cepat. 2. TINJAUAN PUSTAKA 2.1 Text Mining Secara umum text mining adalah proses ekstraksi informasi dari dokumen- dokumen teks tak terstruktur. Text mining dapat didefinisikan sebagai penemuan informasi baru dan tidak diketahui sebelumnya oleh komputer, dengan secara otomatis mengekstrak informasi dari sumber-sumber teks tak terstruktur yang berbeda. Kunci dari proses ini adalah menggabungkan informasi yang berhasil diekstraksi dari berbagai sumber [1] . Tujuan yang paling utama dari proses ini adalah mendukung proses knowledge discovery pada koleksi dokumen yang besar. Selain itu, tujuan text mining juga untuk mendapatkan informasi yang berguna dari sekumpulan dokumen. Jadi, sumber data yang digunakan pada text mining adalah kumpulan teks yang memiliki format yang tidak terstruktur atau minimal semi terstruktur [1] Dalam memberikan solusi, text mining mengadopsi dan mengembangkan banyak teknik dari bidang lain, seperti Data mining, Information Retrieval, Statistik, Matematika, Machine Learning, Linguistic, Natural Languange Processing, dan Visualization. [1] Seperti halnya data mining, text mining juga menghadapi masalah yang sama, termasuk jumlah data yang besar, dimensi yang tinggi, data dan struktur yang terus berubah, dan data “noise.” Berbeda dengan data mining yang utamanya memproses data terstruktur, data yang digunakan text mining pada umumnya dalam bentuk unstruktur, atau minimal semistruktur text. [6]

2.2. Text Preprocessing

Teks yang akan dilakukan proses text mining, pada umumnya memiliki beberapa karakteristik diantaranya adalah memiliki dimensi yang tinggi, terdapat noise pada data, dan terdapat struktur teks yang tidak baik. Cara yang digunakan dalam mempelajari suatu data teks adalah dengan terlebih dahulu menentukan fitur-fitur yang mewakili setiap kata untuk setiap fitur yang ada pada dokumen. Sebelum menentukan fitur – fitur tersebut, diperlukan tahap preprocessing yang dilakukan dalam text mining pada dokumen [5]

2.3 Feature Selection

Pada clustering teks terdapat suatu permasalahan yaitu adanya fitur – fitur yang berdimensi tinggi. Kerja dari Clustering tidak akan optimal apabila di dalamnya terdapat fitur yang tidak relevan dan redundan. Oleh karena itu diperlukan metode untuk mengurangi dimensi fitur ini. Dalam hal ini ada 2 metode yang sering digunakan, yaitu feature extraction dan feature selection. [6] Feature extraction adalah proses mengekstrak fitur baru dari fitur asli melalui pemetaan fungsional. Sedangkan feature selection adalah sebuah proses pemilihan 54 subset fitur dari fitur asli. Kelebihan feature selection dibandingkan dengan Feature extraction adalah pada seleksi fitur memberikan pemahaman yang lebih baik mengenai data sedangkan Feature extraction tidak demikian. [6]

2.2.1 Document Frequency

Document Frequency adalah jumlah dokumen yang mengandung suatu term tertentu. Tiap term akan dihitung nilai Document Frequency-nya DF. Lalu term tersebut diseleksi berdasarkan jumlah nilai DF. Jika nilai DF berada di bawah threshold yang telah ditentukan, maka term tersebut akan dibuang. [6] Document Frequency merupakan metode future selection yang paling sederhana dengan waktu komputasi yang rendah [6]

2.2.2 Term Frequency

Term Frequency merupakan salah satu metode untuk menghitung bobot tiap term dalam dokumen. Dalam metode ini, tiap term diasumsikan memiliki nilai kepentingan yang sebanding dengan jumlah kemunculan term tersebut pada dokumen. [1]

2.2.3 Inverse Document Frequency

Jika Term Frequency fokus pada kemunculan term dalam sebuah dokumen, Inverse Document Frequency IDF fokus pada kemunculan term pada keseluruhan koleksi dokumen. Pada IDF, term yang jarang muncul pada keseluruhan koleksi term dinilai lebih berharga. Nilai kepentingan tiap term diasumsikan berbanding terbalik dengan jumlah dokumen yang mengandung term tersebut. [1]

2.3 Clustering

Clustering adalah suatu metode pengelompokan berdasarkan ukuran kedekatan kemiripan. Clustering berbeda dengan group. Jika group diartikan kelompok yang sama kondisinya, sedangkan cluster tidak harus sama akan tetapi pengelompokan berdasarkan pada kedekatan dari suatu karakteristik sampel yang ada [2]

2.3.1 Partitioning Around Medoid

Seperti halnya dengan K-Means, algoritma PAM mengelompokkan data ke dalam sejumlah K cluster. Berbeda dengan K- means, representasi cluster pada PAM adalah salah satu titik yang dipilih menjadi perwakilan cluster yang disebut dengan medoids. Cluster dibangun dengan menghitung kedekatan yang dimiliki antara medoid dengan objek non-medoid. 3. IMPLEMENTASI 3.1 Context Diagram Berdasarkan spesifikasi kebutuhan sistem maka dibuat gambaran umum sistem yang akan dibangun dalam penelitian ini. Gambaran umum, sistem pada penelitian ini ditunjukkan pada context diagram berikut: Gambar 3.1 Context Diagram Context diagram pada gambar 3.1 menjelaskan tentang gambaran sistem pencarian dokumen berita yang akan dibangun. Dari context diagram terlihat bahwa sistem yang akan dibangun. Berikut penjelasan mengenai workflow pada gambar 3.2 : Interaksi pengguna sistem dibedakan menjadi dua diantaranya : - Administrator dapat melakukan penambahan dokumen berita ke dalam database. Namun diperlukan proses login terlebih dahulu. - User hanya dapat melakukan proses pencarian dengan memasukan key word. Gambar 3.2 DFD Level 0 Gambar DFD Level 0 di atas menggambarkan 3 proses utama yang terjadi pada system pencarian dokumen berita ini, yaitu : 1. Proses Login Proses untuk masuk ke sistem agar admin dapat menambahkan koleksi berita pada database berita. 2. Proses Upload File Berita