dll 35
_source__session_id 36
_source__created Atribut
ini menyimpan data
waktu 1420709262000, dll
37 _source__os__family
Atribut ini
menyimpan data os_family
Windows, Ios, Android
38 _source__os__name
Atribut ini
menyimpan data os_name
Browser, Mobile browser 39
_source__user_agent__famil y
Atribut ini
menyimpan data browser
yang digunakan oleh
user Chrome, Chrome mobile,
Firefox, Opera mini, dll
40 _source__user_agent__type
41 _source__user_agent__user_
agent 42
_source__filter__location- 43
_source__filter__category-
3.2 Pemrosesan data
Sebelum data diolah dengan menggunakan sistem, terlebih dahulu dilakukan
beberapa tahap sebagai pemrosesan data awal yaitu sebagai berikut : 1.
Pembersihan Data
Pada tahap pembersihan data akan dilakukan penghapusan data yang bernilai null atau kosong. Pada setiap fitur yang bernilai null atau kosong
maka semua data yang ada di dalamnya akan dihapus. PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
2. Integrasi Data
Pada tahap integrasi data ini dilakukan penggabungan data dari beberapa file menjadi satu tabel yang utuh. Data yang dikumpulkan
berasal dari beberapa file yang berbeda sehingga harus digabungkan agar
sesuai untuk ditambang.
3.
Penyeleksian Data
Pada tahap penyeleksian data ini dilakukan pembuangan data yang tidak diperlukan seperti data
– data yang tidak relevan untuk penelitian ini. Atribut
– atribut yang dihapus adalah took, timed out, |, total,successfull,failed,max_score,||,_index,_type,_id,_score,_source__aud
ience__economy,_source__audience__age,_source__banner_id,_source__ device__family,_source__device__name_source__filter__category,_sourc
e__filter__location,_source__filter__location,_source__filter__price,_sour ce__filter__site,_source__ip,_source__location__country_code,_source__
location__country_name,_source__location__region,_source__location__l atlong001,_source__location__latlong002,_source__page,_source__query
,_source__profile_id,_source__profile_id,_source_created02,_source_crea ted03,_source__os__family,_source__os__name,_source__user_agent__f
amily,_source__user_agent__type,_source__filter__locati_source__user_a gent__user_agent,_source__filter__categ_source__filter__location-ory,
_source__filter__categ_source__filter__location-ory-. Atribut – atribut
tersebut dihapus atau dilakukan pembuangan karena dianggap tidak dapat dijadikan sebagai variable untuk menentukan pencarian pola.
Data yang diperoleh setelah dilakukan tahap penyeleksian data adalah _source_audience_interest, _source_device_type, _source_location_city,
dan _source_created.
4. Transformasi Data
Pada tahap ini dilakukan peringkasan data, dari data mentah menjadi data yang mudah dikelola. Pada penelitian ini tranformasi data yang
dilakukan adalah atribut _source_created. Atribut tersebut berupa angka yang kemudian diolah menjadi waktu dan bulan. Waktu berupa : pagi,
siang dan malam, sedangkan bulan berupa : awal, tengah dan akhir.
Aturan transformasi data seperti pada Tabel 3.2. Tabel 3. 2 Aturan Transformasi Data _source_created
_source_created aturan
waktu 00:00 am - 08:00 am
pagi 08:01 am - 16:00 pm
siang 16:00 pm - 23:59 pm
malam
bulan 1-10
awal 11-20
tengah 21-31
akhir PLAGIAT MERUPAKAN TINDAKAN TIDAK TERPUJI
5. Penambangan data
Setelah dilakukan beberapa tahapan tersebut di atas, selanjutnya data yang sudah jadi diolah menggunakan algoritma ID3. Contoh variabel
input yang dimasukkan dalam algoritma ID3 seperti pada Tabel 3.3. Tabel 3. 3 Tabel Variabel Input
Interest type
city waktu
bulan
Fashion Personal computer
Surabaya siang
awal Fashion
Smartphone Jakarta
siang awal
Fashion Personal computer
Surabaya siang
awal Fashion
Personal computer Denpasar
siang awal
Fashion Personal computer
Jakarta siang
awal Fashion
Smartphone Mountain View
siang awal
Fashion Smartphone
Jakarta siang
awal Fashion
Personal computer Jakarta
pagi awal
Fashion Personal computer
Jakarta pagi
awal Fashion
Personal computer Jakarta
pagi awal
Smartphone Smartphone
Jakarta siang
awal Smartphone
Tabelt Jakarta
siang awal
Smartphone Tabelt
Jakarta siang
awal Smartphone
Smartphone Jakarta
siang tengah
Smartphone Smartphone
Jakarta siang
tengah Smartphone
Personal computer Pekanbaru
siang akhir
Smartphone Personal computer
Kudus siang
akhir Smartphone
Personal computer Pekanbaru
siang akhir
V a
r i
a b
e l
o u
t V
A Variabel input : aturan yang ditemukan dalam pencarian pola
klasifikasi pencarian situs website.
Smartphone Smartphone
San Mateo malam
akhir Smartphone
Personal computer Surabaya
malam akhir
Motorbike Tabelt
Depok malam
awal Motorbike
Tabelt Depok
malam awal
Motorbike Tabelt
Depok malam
awal Motorbike
Smartphone Jakarta
malam awal
Motorbike Smartphone
Jakarta malam
tengah Motorbike
Smartphone Jakarta
malam tengah
Motorbike Smartphone
Jakarta malam
tengah Motorbike
Smartphone Jakarta
malam akhir
Motorbike Smartphone
Jakarta malam
akhir Motorbike
Smartphone Jakarta
malam akhir
Talisman Personal computer
Surabaya pagi
awal Talisman
Personal computer Jakarta
pagi awal
Talisman Personal computer
Jakarta pagi
awal Talisman
Personal computer Surabaya
pagi awal
Talisman Personal computer
Denpasar pagi
awal Talisman
Smartphone Denpasar
pagi tengah
Talisman Smartphone
Denpasar siang
tengah Talisman
Smartphone Surabaya
siang tengah
Talisman Smartphone
Surabaya siang
akhir Talisman
Smartphone Jakarta
siang akhir
6. Evaluasi Pola
Pada tahap perbaikan ini dilakukan pengujian pola dengan persamaan
2.3. 7.