Pattern Mining
3.Pattern Mining
Pattern mining pada dasarnya merupakan sebuah Gambar 1. Sistem IF.(Rilla, 2006)
metode atau kumpulan metode, untuk menemukan pola dalam bidang arsitektur, bidang teknik
Objektif dari konsep yang dikaji adalah untuk komputer, dan bidang lainnya. Pattern miningsangat mengotomasi proses pemeriksaan dokumen dengan
bermanfaat dalam penelitian di data mining untuk melakukan komputasi perbandingan antara berbagai aplikasi. Salah satunya adalah menemukan representasi kebutuhan (profil) dengan representasi
informasi yang tersembunyi dari data Web. Tujuan dokumen. Proses yang diotomasi ini disebut berhasil
menemukan pola adalah untuk memperoleh informasi apabila memberikan hasil yang mirip dengan hasil
tentang perilaku navigasi pengguna. Hal ini dapat perbandingan secara manual oleh manusia. Model
digunakan untuk tujuan periklanan, untuk membuat sistem Information Filtering dapat digambarkan
profil pengguna yang dinamis.
seperti pada gambar 2. Pattern mining telah dipelajari secara ekstensif dalam lingkungan data mining selama bertahun- tahun. Berbagai algoritma yang efisien seperti algoritma Apriori (Agrawal et al, 1994), PrefixSpan (Yan et al, 2003) dan lain-lain telah diusulkan.
Di bidang text mining, teknik pattern mining dapat digunakan untuk menemukan berbagai pola teks. Dalam teknik data mining telah digunakan untuk menganalisis teks dengan mengekstraksi frase deskriptif dari koleksi dokumen. Namun, efektivitas sistem text mining menggunakan frase sebagai representasi teks tidak menunjukkan hasil yang signifikan.
Pattern mining diusulkan untuk mengurangi kompleksitas waktu, di mana itemset (atau pola) adalah maksimal jika tidak ada superset.
Ide yang sama pada maximal association rule juga digunakan untuk text mining di mana pengguna disediakan kategori untuk menemukan aturan
Gambar 2. Model Sistem IF.(Rilla, 2006) maksimal yang mereka inginkan. Namun, metode ini mengabaikan pola-pola kecil. Padahal beberapa pola
Ada dua pendekatan yang sangat umum kecil bisa sangat berguna. digunakan dalam IF saat ini (Roni, 2006) yaitu:
ISBN: 979-458-766-4 KeTIK 2014 Konferensi Nasional Pengembangan Teknologi Informasi dan Komunikasi
Biasanya, text mining membahas hubungan antara istilah pada tingkat spektrum yang luas, sedikit mengindahkan istilah-istilah yang duplikasi, dan melabeli informasi dalam training set. Ada teknik data mining yang mengembali pola dalam jumlah yang banyak dari training set. Tidak mengherankan, di antara pola-pola ini, ada banyak pola berlebihan (Yi et al, 2007). Namun yang menjadi permasalah adalah bagaimana menemukan cara yang efektif untuk menangani besarnya jumlah pola yang ditemukan.
Sequential closed patterns digunakan dalam lingkungan data mining telah menjadi alternatif yang menjanjikan untuk frase (Jindal et al, 2006). Untuk mempertimbangkan hubungan semantik sangat penting antara istilah, pattern taxonomy model pola taksonomi (PTM) telah diusulkan untuk IF (Wu et al, 2006). Pola taksonomi adalah hirarchy tree yang yang menggantikan hubungan sub-sekuensial dengan pola sekuensial yang ditemukan. Pendekatan pola berbasis ini telah menunjukkan perbaikan pada efektivitas, tetapi mengorbankan efisiensi komputasi. Dalam kaitan dengan masalah redundansi dan noise, PTM mengadopsi konsep closed pattern. Namun, ini adalah masalah yang masih menantang bagi PTM untuk menangani frekuensi pola yang masih rendah karena langkah-langkah yang digunakan dalam data mining untuk mempelajari profil berubah menjadi
tidak cocok dalam tahap penyaringan. Gambar 3. Classification Operations.
Tahapan-tahapan yang dapat dilakukan dalam ning pattern mining merujuk pada gambar 3 Sebuah sistem IF membantu pengguna dengan
4. Information Filtering Berbasis Pattern Min-
adalah(Vasudeva et al, 2012):
menyaring sumber data dan memberikan informasi
1. Preprocessing
yang relevan kepada pengguna. Ketika informasi Pada tahap ini, semua istilah-istilah yang disampaikan datang dalam bentuk saran sistem
dieliminasi disini. Proses ini juga disebut IF disebut sistem rekomendasi. Karena setiap
dengan proses tokenization. Ada dua langkah pengguna memiliki kepentingan yang berbeda maka
yang dilakukan yaitu stop list removal dan sistem IF harus dipersonalisasi untuk mengakomodasi
stem word removal.
kepentingan setiap individu pengguna tersebut. Hal
- Stop list removal
ini memerlukan pengumpulan umpan balik dari Proses ini sangat berguna untuk menghemat pengguna sebagai preferensi dari profil
sumber daya sistem. Akan ada terdapat pengguna.(Vasudeva et al, 2012).
sejumlah kata yang termasuk dalam daftar Merujuk kepada duamodel IF diawal maka
stop list removal yang akan dianggap tidak diusulkan sebuah review model lebih lanjut dalam
relevan dan kemudian dihapus.Sebuah makalah ini. Percobaan yang luas telah dilakukan
dokumen teks dibagi menjadi aliran kata- untuk memverifikasi metode pengaturan threshold
kata dengan menghapus semua tanda baca pada tahap pertama. Makalah ini akan menunjukkan
dan dengan mengganti tab dan karakter non- bahwa mengeksploitasi penalaran set-base dan
teks lain dengan spasi tunggal. Representasi pendekatan pattern mining untuk mengembangkan
tokenized ini kemudian digunakan untuk sistemIF dapat mencapai kinerja yang lebih baik.
diproses lebih lanjut. Himpunan kata-kata Pattern Mining merupakan penelitian yang sangat
yang berbeda diperoleh dengan penting dalam data mining dan knowledge
menggabungkan semua dokumen teks discovery.Pattern mining dapat digunakan untuk
koleksi disebut kamus koleksi dokumen. pendekatan content based filtering dan collaborative
Algoritma yang dapat digunakan adalah filtering dalam sistem IF(Vasudeva et al, 2012).
dengan mendefinisikan beberapa term dan variable yang mungkin akan sering muncul dalam sebuah dokumen. Misal, D merupakan
variable untuk beberapa
KeTIK 2014 ISBN: 979-458-766-4 Konferensi Nasional Pengembangan Teknologi Informasi dan Komunikasi
dokumen dan T untuk teks sehingga T = f(t1, t2, t3,…tm).
- Stem word removal Stemming adalah proses pemetaan dan penguraian berbagai bentuk (variants) dari suatu kata menjadi bentuk kata dasarnya. Proses stemming sangat penting dalam sistem IF untuk meningkatkan kualitas informasi yang akan disaring.
2. Finding Model Ada beberapa model yang dapat digunakan untuk melakukan penyaringan informasi dengan menggunakan pattern mining di antaranya:
- Pattern Deploying Model Model memanfaatkan pola yang ditemukan dengan menggunakan fungsi pembobotan untuk menetapkan nilai untuk setiap pola sesuai dengan frekuensinya.
- Mining Negative Feedback Secara umum, konsep relevansi adalah subjektif; dan biasanya orang dapat menggambarkan relevansi topik (atau dokumen) dalam dua dimensi: kekhususan dan exhaustivity, di mana "kekhususan" menggambarkan sejauh mana topik berfokus pada apa yang pengguna inginkan, dan "exhaustivity" menggambarkan sejauh mana topik membahas apa yang pengguna inginkan. Sangat mudah bagi manusia untuk melakukannya(Li et al, 2011)..
- Pattern Based Information Filtering Model Ada dua pendekatan yang dapat digunakan pada model ini yaitu: 1)content-based filtering, dan 2) collaborative filtering system.