Studi Awal Metoda Hibrid Pada Data Time
Seminar Nasional Pengaplikasian Telematika (SINAPTIKA 2012)
Jakarta, 7 Juli 2012
ISSN 2086-8251
Studi Awal Metoda Hibrid Pada Data Time Series
Terintegrasi
Mujiono
Jurusan Teknik Informatika, Fakultas Ilmu Komputer, Universitas Mercu Buana
Jl. Raya Meruya Selatan, Kembangan, Jakarta, 11650
E-mail : [email protected]
Abstract – Many studies presented that among the
others kinds of data have been resulted, time series
data is dominant. The increment of computational
capabilities make time series data volume increase
very quickly. In addition to the large volume, the
challenges and problems of extracting knowledge
from the time series data is that time series data
came from various sources in various formats.
There is required new methods and techniques to
explore the knowledge on the time series data so as
to solve the challenges and problems. This paper
presents a research proposal on a hybrid method
which is used to extract knowledge in such
integrated time series data. The proposed hybrid
method is a combination of fractals, Bendford's
Law and Finite State Automata.
(clustering),
klasifikasi,
prediksi,
ringkasan,
pendeteksian adanya anomali, dan segmentasi [1].
Beberapa metoda data mining yang diteliti
penerapaanya untuk data time series antara lain:
attribut reduction dan WNN untuk perkiraan [9],
influence of impact factor [6], GRA dan fuzzy
clustering, [7], Neural Network With Multiresolution
Learning Paradigm [8], dan Bayesian [9]. Data
mining atas integrasi data time series dari dua sumber
utama yang berbeda dengan metoda MARSS
dilakukan oleh Pattengill dkk di [2]. Sementara
Chang, dijelaskan di [10], menggunakan model
estimasi NLS (Nonliner Least Square) untuk analisa
berbagai relasi antar beberapa data time series dari
berbagai sumber. Bendford’s Law, metoda data
mining yang lebih sederhana, juga digunakan untuk
analisa time series data untuk keperluan pendeteksian
awal atas adanya anomali seperti disajikan pada [5],
[13].
Dari berbagai penelitian diketahui bahwa
seringkali
tidak
mencukupi
hanya
dengan
menggunakan satu metoda dalam menganalisa data
time series [5], [11], [21]. Durstchi, dkk pada [22]
menyatakan bahwa diperlukan kehatian – hatian dan
prasyarat tambahan untuk menggunakan teknik
Bendford’s Law. Integrasi berbagai beberapa metoda
dilakukan para peneliti. Pada [11] digunakan metoda
integrasi HMM dan Spectral Analysis. Kozma dkk,
pada [3] menjelaskan hasil penerapan integrasi fractal
analisys dan statistical data processing dalam Fuzzy
Neural Network. Penggunaan metoda fraktal
dikombinasi dengan model statistik berhasil baik
untuk menganalisa data time series perubahan iklim
disajikan pada disertasi Romani di [13].
Kata Kunci: data time series, metoda hibrid,
fraktal, Bendford’s Law, Finite State Automata
I.
PENDAHULUAN
Dari waktu ke waktu volume data time series
meningkat dengan cepat. Dari sisi komposisi data
yang dihasilkan, data time series merupakan bagian
data terbesar. Dari pengambilan acak terhadap 4.000
data grafik dari 15 surat kabar terkemuka yang
diterbitkan antara tahun 1974 – 1989, 75 % di
antaranya adalah grafik time series [1]. Selain volume,
format dan sumber data time series juga merupakan
permasalahan yang harus diperhatikan dalam upaya
menggali pengetahuan dari data time series. Beberapa
tantangan dalam menggali pengetahuan dari data dari
berbagai sumber dan berbagai format adalah [4],[13]:
1. bagaimana mengintegrasikan dan menyatukan
informasi yang berasal dari berbagai sumber dan
berbagai format ke dalam satu pandangan tunggal
sehingga pola yang tidak terlihat sebelumnya dapat
dikenali, 2. bagaimana menemukan hubungan antara
pola yang tersembunyi dari berbagai format dan
berbagai sumber data, 3. pembuatan teknik yang
sesuai untuk menggali pola dari nilai yang kontinu
tanpa kehilangan informasi pada interval waktu
tertentu.
Berbagai penelitian metode Data Mining (DM)
untuk time series telah banyak dilakukan sebelumnya.
Secara umum penggalian pengetahuan pada data time
series meliputi: pengindeks-an, pengelompokan
I.1.
Dasar Usulan Penelitian
Makalah ini menyajikan proposal penggunaan
pendekatan fraktal, Finite State Automata, dan
Bendford’s Law
yang dikombinasikan untuk
membuat alternatif model penggalian pengetahuan
pada data time series, khususnya untuk pendeteksian
anomali. Pemilihan teknik – teknik ini didasarkan
pada penjelasan dan asumsi berikut.
Anomali, adalah suatu pola yang kemunculannya
berbeda secara signifikan daripada yang
diharapkan seperti terlihat dari data – data
sebelumnya[1].
33
ISSN 2086-8251
Seminar Nasional Pengaplikasian Telematika (SINAPTIKA 2012)
Jakarta, 7 Juli 2012
3.
Fraktal, didefinisikan sebagai obyek yang
mempunyai kesamaan atas dirinya sendiri (self
similiarities) dengan skala yang berbeda [13],
[24].
Berdasarkan studi empiris yang dilakukan, Kamel
dkk [24] menyatakan bahwa Data Time Series
biasanya memiliki karakteristik dan perilaku
kesamaan atas dirinya sendiri, yang merupakan
sifat dasar fraktal.
Bendford’s Law, menyakan bahwa kemunculan
data yang bersifat alami memenui aturan tertentu,
[5],[13],[21],[22].
Finite State Automata, secara informal adalah
suatu mesin abstrak yang mampu menerima atau
menolak bahasa reguler.
4.
III. HASIL STUDI LITERATUR
III.1. Obyektif Penggalian Pengetahuan
Secara umum tujuan DM diklasifikasikan menjadi
dua yaitu[1]:
Deskriptif : menemukan pola yang dapat dikenali
oleh manusia, asoiasi, atau korelasi yang
dideskripsikan oleh data
Prediksi:
membangun
satu
atau
lebih
sekumpulan model (aturan, pohon keputusan,
jaringan saraf, vektor pendukung), menyusun
inferensi atas sekumpulan data dan berusaha
untuk memperkirakan perilaku dari sekumpulan
data yang baru.
Sementara tujuan penggalian pengetahuan pada
data time series adalah [1],[12]:
Indexing (Query by Content): Diberikan suatu
query atas data time series Q, dan terdapat ukuran
kesamaan/ketidaksamaan D(Q;C), temukan data
time series yang paling mirip (sama) dalam basis
data DB
Clustering: Temukan pengelompokkan alami dari
data time series pada basis data DB menurut
ukuran kesamaan/ketidaksamaan D(Q;C).
Classification: Diberikan data time serias tanpa
label Q, masukkan data time series tersebut ke
dalam salah satu di antara dua atau lebih kelas
yang telah didefinisikan
Prediction (Forecasting): Diberikan data time
series Q yang mengandung n poin data,
perkirakan nilai pada n + 1.
Summarization: Diberikan data time series Q
yang mengandung n poin data dengan n adalah
nilai angka yang sangat besar, dibuat suatu
(kemungkinan adalah grafik) pendekatan dari Q
yang tetap mengandung fitur – fitur subtantif
tetapi cukup kecil untuk ditampilkan dalam satu
halaman, satu layar komputer, dll.
Anomaly
Detection/AD
(Interestingness
Detection): Diberikan data time series Q, yang
diasumsikan sebagai normal, dan time series R
tanpa keterangan, temukan semua bagian dalam R
yang mengandung anomali atau sesuatu kejadian
yang “mengejutkan” / menarik/ tidak terduga.
Segmentation:
a) Diberikan data time series Q yang
mengandung n poin data, buat suatu model
Q¹, dari satu sekmen K (K
Jakarta, 7 Juli 2012
ISSN 2086-8251
Studi Awal Metoda Hibrid Pada Data Time Series
Terintegrasi
Mujiono
Jurusan Teknik Informatika, Fakultas Ilmu Komputer, Universitas Mercu Buana
Jl. Raya Meruya Selatan, Kembangan, Jakarta, 11650
E-mail : [email protected]
Abstract – Many studies presented that among the
others kinds of data have been resulted, time series
data is dominant. The increment of computational
capabilities make time series data volume increase
very quickly. In addition to the large volume, the
challenges and problems of extracting knowledge
from the time series data is that time series data
came from various sources in various formats.
There is required new methods and techniques to
explore the knowledge on the time series data so as
to solve the challenges and problems. This paper
presents a research proposal on a hybrid method
which is used to extract knowledge in such
integrated time series data. The proposed hybrid
method is a combination of fractals, Bendford's
Law and Finite State Automata.
(clustering),
klasifikasi,
prediksi,
ringkasan,
pendeteksian adanya anomali, dan segmentasi [1].
Beberapa metoda data mining yang diteliti
penerapaanya untuk data time series antara lain:
attribut reduction dan WNN untuk perkiraan [9],
influence of impact factor [6], GRA dan fuzzy
clustering, [7], Neural Network With Multiresolution
Learning Paradigm [8], dan Bayesian [9]. Data
mining atas integrasi data time series dari dua sumber
utama yang berbeda dengan metoda MARSS
dilakukan oleh Pattengill dkk di [2]. Sementara
Chang, dijelaskan di [10], menggunakan model
estimasi NLS (Nonliner Least Square) untuk analisa
berbagai relasi antar beberapa data time series dari
berbagai sumber. Bendford’s Law, metoda data
mining yang lebih sederhana, juga digunakan untuk
analisa time series data untuk keperluan pendeteksian
awal atas adanya anomali seperti disajikan pada [5],
[13].
Dari berbagai penelitian diketahui bahwa
seringkali
tidak
mencukupi
hanya
dengan
menggunakan satu metoda dalam menganalisa data
time series [5], [11], [21]. Durstchi, dkk pada [22]
menyatakan bahwa diperlukan kehatian – hatian dan
prasyarat tambahan untuk menggunakan teknik
Bendford’s Law. Integrasi berbagai beberapa metoda
dilakukan para peneliti. Pada [11] digunakan metoda
integrasi HMM dan Spectral Analysis. Kozma dkk,
pada [3] menjelaskan hasil penerapan integrasi fractal
analisys dan statistical data processing dalam Fuzzy
Neural Network. Penggunaan metoda fraktal
dikombinasi dengan model statistik berhasil baik
untuk menganalisa data time series perubahan iklim
disajikan pada disertasi Romani di [13].
Kata Kunci: data time series, metoda hibrid,
fraktal, Bendford’s Law, Finite State Automata
I.
PENDAHULUAN
Dari waktu ke waktu volume data time series
meningkat dengan cepat. Dari sisi komposisi data
yang dihasilkan, data time series merupakan bagian
data terbesar. Dari pengambilan acak terhadap 4.000
data grafik dari 15 surat kabar terkemuka yang
diterbitkan antara tahun 1974 – 1989, 75 % di
antaranya adalah grafik time series [1]. Selain volume,
format dan sumber data time series juga merupakan
permasalahan yang harus diperhatikan dalam upaya
menggali pengetahuan dari data time series. Beberapa
tantangan dalam menggali pengetahuan dari data dari
berbagai sumber dan berbagai format adalah [4],[13]:
1. bagaimana mengintegrasikan dan menyatukan
informasi yang berasal dari berbagai sumber dan
berbagai format ke dalam satu pandangan tunggal
sehingga pola yang tidak terlihat sebelumnya dapat
dikenali, 2. bagaimana menemukan hubungan antara
pola yang tersembunyi dari berbagai format dan
berbagai sumber data, 3. pembuatan teknik yang
sesuai untuk menggali pola dari nilai yang kontinu
tanpa kehilangan informasi pada interval waktu
tertentu.
Berbagai penelitian metode Data Mining (DM)
untuk time series telah banyak dilakukan sebelumnya.
Secara umum penggalian pengetahuan pada data time
series meliputi: pengindeks-an, pengelompokan
I.1.
Dasar Usulan Penelitian
Makalah ini menyajikan proposal penggunaan
pendekatan fraktal, Finite State Automata, dan
Bendford’s Law
yang dikombinasikan untuk
membuat alternatif model penggalian pengetahuan
pada data time series, khususnya untuk pendeteksian
anomali. Pemilihan teknik – teknik ini didasarkan
pada penjelasan dan asumsi berikut.
Anomali, adalah suatu pola yang kemunculannya
berbeda secara signifikan daripada yang
diharapkan seperti terlihat dari data – data
sebelumnya[1].
33
ISSN 2086-8251
Seminar Nasional Pengaplikasian Telematika (SINAPTIKA 2012)
Jakarta, 7 Juli 2012
3.
Fraktal, didefinisikan sebagai obyek yang
mempunyai kesamaan atas dirinya sendiri (self
similiarities) dengan skala yang berbeda [13],
[24].
Berdasarkan studi empiris yang dilakukan, Kamel
dkk [24] menyatakan bahwa Data Time Series
biasanya memiliki karakteristik dan perilaku
kesamaan atas dirinya sendiri, yang merupakan
sifat dasar fraktal.
Bendford’s Law, menyakan bahwa kemunculan
data yang bersifat alami memenui aturan tertentu,
[5],[13],[21],[22].
Finite State Automata, secara informal adalah
suatu mesin abstrak yang mampu menerima atau
menolak bahasa reguler.
4.
III. HASIL STUDI LITERATUR
III.1. Obyektif Penggalian Pengetahuan
Secara umum tujuan DM diklasifikasikan menjadi
dua yaitu[1]:
Deskriptif : menemukan pola yang dapat dikenali
oleh manusia, asoiasi, atau korelasi yang
dideskripsikan oleh data
Prediksi:
membangun
satu
atau
lebih
sekumpulan model (aturan, pohon keputusan,
jaringan saraf, vektor pendukung), menyusun
inferensi atas sekumpulan data dan berusaha
untuk memperkirakan perilaku dari sekumpulan
data yang baru.
Sementara tujuan penggalian pengetahuan pada
data time series adalah [1],[12]:
Indexing (Query by Content): Diberikan suatu
query atas data time series Q, dan terdapat ukuran
kesamaan/ketidaksamaan D(Q;C), temukan data
time series yang paling mirip (sama) dalam basis
data DB
Clustering: Temukan pengelompokkan alami dari
data time series pada basis data DB menurut
ukuran kesamaan/ketidaksamaan D(Q;C).
Classification: Diberikan data time serias tanpa
label Q, masukkan data time series tersebut ke
dalam salah satu di antara dua atau lebih kelas
yang telah didefinisikan
Prediction (Forecasting): Diberikan data time
series Q yang mengandung n poin data,
perkirakan nilai pada n + 1.
Summarization: Diberikan data time series Q
yang mengandung n poin data dengan n adalah
nilai angka yang sangat besar, dibuat suatu
(kemungkinan adalah grafik) pendekatan dari Q
yang tetap mengandung fitur – fitur subtantif
tetapi cukup kecil untuk ditampilkan dalam satu
halaman, satu layar komputer, dll.
Anomaly
Detection/AD
(Interestingness
Detection): Diberikan data time series Q, yang
diasumsikan sebagai normal, dan time series R
tanpa keterangan, temukan semua bagian dalam R
yang mengandung anomali atau sesuatu kejadian
yang “mengejutkan” / menarik/ tidak terduga.
Segmentation:
a) Diberikan data time series Q yang
mengandung n poin data, buat suatu model
Q¹, dari satu sekmen K (K