Integrasi Data Terstruktur dan Tidak Ter

Integrasi Data Terstruktur dan Tidak Terstruktur dalam Sistem
Inteligensi Bisnis
Choerul Afifanto
Komputasi Statistik, Sekolah Tinggi Ilmu Statistik, Jakarta, Indonesia
[email protected]
Abstract— Kuantitas data berkembang sangat
pesat tiap harinya baik dari dalam maupun luar
perusahaan.
Sangatlah
penting
untuk
memanfaatkan data-data tersebut untuk dianalisa
sehingga bisa digunakan dalam inteligensi bisnis
maupun pengambilan keputusan yang strategis dan
taktis.
Data diklasifikasikan dalam 2 jenis, yatu
terstruktur dan tidak terstruktur. Data terstruktur
direpresentasikan dalam skema yang jelas sehingga
mudah untuk dianalisa maupun diintegrasikan
dengan data terstruktur lainnya. Sedangkan data
tidak terstruktur direpresentasikan dalam berbagai

bentuk sehingga sangat sulit untuk dianalisa
maupun diintegrasikan dengan sumber data lain.
Data terstruktur dan tidak terstruktur apabila
diintegrasikan
dalam
menganilisa
suatu
permasalahan akan memberikan pemahaman dan
solusi yang lebih lengkap dan tepat sasaran. Namun,
bukanlah hal yang mudah untuk mengintegrasikan
kedua jenis data tersebut. Dibutuhkan teknik
maupun arsitektur yang tepat untuk mengatasi
permasalahan tersebut.
Beberapa teknik yang bisa digunakan adalah text
tagging dan annotation. Teknik tersebut merupakan
teknik yang popular dalam natural processing
techniques untuk preprocessing data tidak
terstruktur agar bisa dengan mudah diintegrasikan
dengan data terstruktur
Keywords— inteligensi bisnis, text

annotation, natural processing techniques.

tagging,

I. PENDAHULUAN

Besarnya data yang tersimpan di dalam sebuah
perusahaan berkembang sangat cepat tiap harinya.
Kemampuan untuk mengakses dan menganalisa
data tersebut dalam pembuatan keputusan yang
cepat dan cerdas menjadi kunci kesuksesan sebuah
perusahaan. Banyak perusahaan yang terus
berkembang seiring dengan berputarnya waktu,
sehingga menghasilkan informasi yang heterogen
dari data yang terdistribusi di berbagai sumber.
Data tersebut disimpan dalam lokasi, sistem,
format dan skema yang berbeda dan memberikan
tantangan
dalam
penggunaan

maupun
integrasinya.
Dalam pengambilan keputusan yang efektif dan
taktis, diperlukan kumpulan metodologi, proses,
arsitektur dan teknologi yang mengubah data
mentah menjadi informasi yang bermakna yang
disebut Inteligensi Bisnis (IB)[2]. IB menggunakan
Gudang Data (GD) untuk mengelola data-datanya
dalam jumlah besar. Namun tidak semua IB
menggunakan GD dalam mengelola data-datanya.
IB digunakan untuk mendukung sejumlah besar
keputusan bisnis mulai dari operasi sampai
strategis. Keputusan operasi termasuk penempatan
dan harga produk. Keputusan strategis termasuk
prioritas, tujuan dan arah pada tingkat yang lebih
luas. Pada semua kasus, IB lebih efektif bila data
yang didapat dari pasar tempat perusahaan
beroperasi (data eksternal) digabungkan dengan
data dari sumber internal bisnis perusahaan seperti
data operasi dan finansial (data internal). Bila


digabungkan, data eksternal dan internal bisa
menyediakan gambaran yang lebih lengkap [1].
Secara umum, ada dua kategori data yaitu data
terstruktur dan tidak terstruktur. Data terstruktur
tersedia sebesar 20% dari seluruh data, serta
direpresentasikan dalam bentuk relasi yang mudah
dipetakan dan disimpan dalam database relasional.
Sedangkan data tidak terstruktur tersedia sebanyak
80% dari seluruh data yang direpresentasikan
dalam berbagai bentuk dokumen seperti laporan,
artikel berita, e-mail, dan konten web[3].
Data terstruktur biasanya disimpan dengan
skema yang terdefinisi sehingga mudah untuk
dilakukan query, dianalisa, dan diintegrasikan
dengan data terstruktur lainnya. Berbeda dengan
data tidak terstruktur, yang secara alami susah
untuk dilakukan query, dianalisa, maupun
diintegrasikan dengan sumber data lain. Namun di
balik itu semua, informasi tersembunyi yang

tersimpan dalam data tidak terstruktur bisa sangat
berperan dalam pengambilan keputusan. Sehingga
apabila
dalam
pengambilan
keputusan
menggunakan integrasi data terstruktur dan data
tidak terstruktur bisa menambah nilai yang
signifikan serta kebenaran yang sejati bagi
perusahaan/organisasi. Inilah yang menjadi
tantangan sekaligus manfaat dalam integrasi data
terstruktur dan tidak terstruktur.
Text tagging dan annotation merupakan teknik
yang cukup popular dalam Natural Language
Processing (NLP) dan Machine Learning. Serta
merupakan komponen penting dalam pemrosesan
dokumen dan information extraction system. Text
tagging dan annotation terdiri atas analisa teks
bebas dan identifikasi kata seperti kata benda,
kerja, maupun ekspresi numerik. Text annotation

juga disebut sebagai Named Entity (NE)
Extraction. Dulu, teknik Named Entity Extraction
digunakan untuk mengidentifikasi entiti umum
seperti nama orang, lokasi, perusahaan, tanggal,
besarnya pengeluaran dari kumpulan teks bebas.
Teknik tersebut banyak dijadikan subjek penelitian
selama beberapa dekade terakhir dan telah

dikembangkan menjadi sistem komersil maupun
open-source. Saat ini sistem named entity
detection telah memberikan akurasi yang akurat
dan banyak digunakan di berbagai bidang dalam
aplikasinya pada data mining, information
extraction (IE), serta natural language processing
(NLP).
Paper ini akan menjelaskan peran text tagging
dan annotation pada tahap preprocessing dalam
integrasi data terstruktur dan tidak terstruktur
sehingga informasi berguna yang didapat dari
kumpulan teks berjumlah sangat besar bisa

diintegrasikan dengan data terstruktur untuk
analisa selanjutnya.
II. TEKNIK DAN ARSITEKTUR

A. Text Tagging dan Annotation
Text tagging dan annotation atau biasa disebut
named entitiy extraction merupakan teknik yang
popular digunakan dalam pemrosesan data tidak
terstruktur seperti teks yang berdasarkan pada
Natural Language Processing (NLP) dan machine
learning. Text tagging dan annotation membentuk
komponen yang penting dalam tugas pemrosesan
bahasa, termasuk di dalamnya seperti text mining,
information retrieval, dan information extraction.
Named entity extraction terdiri dari identifikasi
nama entitas dalam teks bebas atau data tidak
terstruktur. Tipe entitas yang umum seperti kata
benda, nama, produk, perusahaan, lokasi, alamat email, waktu dan tanggal, serta nilai numerik seperti
ukuran, persentase, nilai keuangan, dll.
Named entity extraction sudah banyak

diaplikasikan di berbagai bidang di antaranya,
bidang kesehatan yaitu mendeteksi nama penyakit
berdasarkan literatur kedokteran, bidang militer
yaitu mendeteksi nama senjata, fasilitas dan
organisasi teroris, bidang IT yaitu membangun
aplikasi pencarian semantic untuk mengatasi
keterbatasan kata kunci regular berdasarkan search
engine.

Beberapa pendekatan maupun teknik telah
dikembangkan untuk meningkatkan performa
named
entity
extraction,
mulai
dari
mengembangkan secara manual kumpulan dari
aturan menggunakan sebuah kamus serta sebuah
daftar yang nilainya didapat dari query database.
B. Generic and High-Level Architecture Diagram


Proses pengumpulan inteligensi atau kecerdasan
dari sumber data terstruktur dan tidak terstruktur
dibagi menjadi 2 fase. Pada fase pertama, data
tidak terstruktur (seperti CMS, scan dokumen,
email, web konten) diubah menjadi data
intermediate yang karakteristiknya sama seperti
data terstruktur dengan teknik text tagging dan
annotation. Hasilnya akan diintegrasikan dengan
data terstruktur dengan bantuan alat untuk
mengekstrak, mentransform dan memuat data yang
disebut Extract, Transform, and Load (ETL) dari
database terpisah menjadi satu penyimpanan utuh
yaitu Complete Data Warehouse (CDW) untuk
pelaporan dan analisis.
Untuk membangun landasan pengambilan
keputusan yang efektif, diperlukan informasi yang
sifatnya bisa dipercaya. Informasi tersebut
direpresentasikan oleh CDW yang merupakan
tempat dimana data terstruktur dan tidak

terstruktur diintegrasikan. Proses pengintegraian
tersebut melalui proses ETL, yaitu sebuah proses
yang fungsinya untuk memodifikasi dan
membersihkan data sesuai dengan format tertentu
yang standar sebelum data tersebut disimpan ke
dalam CDW untuk menjadi informasi yang
digunakan sebagai landasan dalam pengambilan
keputusan secara strategis dan taktis.
Pada kasus sumber data tidak terstruktur, text
tagging dan annotation platform mengekstrak
informasi berdasarkan pada domain ontology atau
makna, properti maupun relasi dari data tersebut
terhadap suatu domain atau bidang menjadi sebuah
database XML.
Figure 1 menunjukkan bahwa data terstruktur di
dalam perusahaan berasal dari sumber transaksi

Figure 1. Text tagging dan annotation serta ETL dalam
pembentukan complete data warehouse (fase pertama)


tradisional
seperti
Relational
Database
Manegement System (RDBMS), legacy systems,
dan aplikasi tempat penyimpanan perusahaan.
Sedangkan data tidak terstrukturnya berasal dari
dokumen, Content Management System (CMS),
serta mail system.
Output dari fase pertama yaitu penyimpanan
integrasi data terstruktur dan tidak terstruktur atau
disebut CDW berperan sebagai input dalam fase
kedua. Pada fase kedua ini, aplikasi Inteligensi
Bisnis dibangun di atas sebuah versi kebenaran
yang bisa dipercaya. Kebenaran tersebut
direpresentasikan dalam bentuk CDW.

Figure 2 Pembangunan aplikai Inteligensi Bisnis dari Complete
Data Warehouse (fase 2)

CDW meliputi semua pandangan dari aset data
perusahaan dalam pembangunan Inteligensi Bisnis
dan aplikasi pendukung pengambilan keputusan.
Figure 2 menunjukkan pembangunan IB dan
aplikasi pendukung pengambilan keputusan itu
secara menyeluruh dengan menggunakan semua
data perusahaan dari internal maupun eksternal.

Dengan menggunakan CDW, aplikasi lain seperti
manajemen
performa
perusahaan
bisa
menghasilkan output yang handal dan bisa
dipercaya.
III. METODOLOGI

A. Studi Kasus

Studi kasus yang digunakan pada paper ini
adalah studi kasus tentang mendapatkan informasi
yang lebih aktual dan berguna dari data terstruktur
dari BPS dengan data tidak terstruktur dari media
massa online, SINDONEWS, tentang informasi
ekspor dan impor nonmigas.
B. Prosedur Pengambilan Data

Data terstruktur BPS tentang nilai ekspor
nonmigas bulan Mei 2015 yang berupa tabel dicapture dan dicatat nilainya, sehingga didapat
angka mentah nilai ekspor nonmigas.
Sedangkan untuk data tidak terstruktur yang
diambil dari salah satu berita pada koran
SINDONEWS yaitu berita berjudul Wow! Butuh
Tujuh Tahun Pisang RI tembus Jepang[6] .Artikel
berita tersebut berisin tentang informasi yang lebih
detail mengenai ekpor pisang Indonesia ke negara
Jepang, seperti total ekspor pisang dari Indonesia
ke Jepang, total konsumsi buah impor Jepang,
supermarket yang menjual buah-buah impor, dsb.

kemudian disimpan ke dalam CDW berupa
informasi aktual.
Hasil yang tersimpan dalam ETL tersebut
digunakan sebagai pembangunan inteligensi bisnis
yang dapat digunakan sebagai landasan pendukung
dalam pengambilan keputusan yang strategis dan
taktis. Selain itu, inteligensi bisnis dapat
diterapkan untuk tujuan bisnis seperti perkiraan,
analitis, pelaporan perusahaan, kolaborasi serta
manajemen pengetahuan.
IV. HASIL DAN DISKUSI

Informasi yang bersifat real-time tentang suatu
produk kita maupun kompetitor sangat krusial jika
kita tidak bisa menganalisanya secara bijak untuk
kepentingan perusahaan kita. Seorang pengambil
keputusan harus bisa menyerap dan menganalisa
informasi yang tersedia dalam jumlah yang sangat
besar yang muncul setiap saat. Umtuk menjaga
persaingan antar perusahaan, sebuah perusahaan
harus sadar dan waspada akan perubahan trend
pasar, kebijakan kompetitor, produk terbaru
kompetitor, perubahan manajemen, penggabungan
dan akuisisi perusahaan yang diterbitkan dalam
media cetak/online seperti koran, majalah, dan
website.
Artikel berita harian berupa kumpulan teks yang
tersusun rapi dalam beberapa paragraf. Untuk

C. Analisis Data

Data tidak terstruktur yang berupa artikel berita
dari SINDONEWS pertama kali diubah formatnya
terlebih dahulu menjadi data terstruktur dengan
teknik text tagging dan annotation. Sedangkan
data terstruktur berupa data mentah ekspor
nonmigas Indonesia bulan Mei 2015. Kemudian
kedua jenis data, terstruktur dan tidak terstruktur,
dilakukan proses ekstrak, transform maupun muat
dengan alat ETL agar bisa diintegrasikan dan

Figure 3 Mendapatkan inteligensi pasar dari artikel berita

mengumpulkan data yang tidak terstruktur tersebut
tidaklah mudah dan butuh waktu cukup lama untuk
melakukan review dan analisa. Kualitas dari

sebuah keputusan yang strategis dan taktis terletak
pada kualitas masukan informasi tersebut.
Sehingga sangatlah penting untuk menganalisa
kualitas informasi sebaik mungkin dalam rentang
waktu yang terbatas.
Figure 3 mengilustrasikan sebuah skenario
dalam mendapatkan informasi dengan cara
mencari informasi dari sumber berita harian,
forum, blogs, artikel dan laporan. Kebanyakan
orang mendapatkan informasi secara cepat dari
artikel berita yaitu dengan cara membaca
headline/judulnya. Namun jika diimplementasikan
oleh sistem, hal itu tidaklah mudah untuk
dilakukan dengan melakukan query pada natural
language text dari headline/judul untuk bisa
dianalisis maksudnya. Kemudian bagaimana peran
dari text annotation tool dalam data tidak
terstruktur sehingga makna dari hasil bisa diterima
dengan baik.
Salah satu contoh kalimat dalam artikel berita
SINDONEWS adalah:
“Tahun ini saja, Transpacific Foods Japan
berencana mengimpor pisang Cavendish dari PT
Nusantara Tropical Farm (NTF) sebanyak 8.147
ton dan nanas sebanyak 1.673 ton”
Entitas yang bisa didapat dari cuplikan berita
tersebut diantaranya tahun, komoditi, organisasi,
dan kuantitas. Seperti yang ditampilkan pada
Figure 4, text annotator mengidentifikasi entitas
serta memberikan tags pada cuplikan berita
tersebut. Output yang dihasilkan dapat berupa
dokumen XML dan tabel database. Memberikan
tag pada informasi yang penting dapat
mempermudah dalam mendapatkan link entitas
dan analisis relasinya. Tag XML dan skema tabel
database harus didefinisikan terlebih dahulu
sebelumnya. Selain itu, text annotator tool juga
harus diatur dan diprogram supaya bisa mendeteksi
entitas tertentu secara spesifik. Sehingga query
pada SQL bisa secara mudah dilakukan pada tabel
yang telah dihasilkan melalui proses text tagging
dan annotation.

organisasi

tahun

Tahun ini saja, Transpacific Foods Japan berencana
mengimpor pisang Cavendish dari PT Nusantara
Tropical Farm (NTF) sebanyak 8.147 ton dan nanas
sebanyak 1.673 ton.

komoditi

kuantitas

Text annotator

XML
Output

tahun
Tahun
ini

organisasi
Transpacific
Food Japan

komoditi
pisang

kuantitas
8147 ton

Tahun ini saja,
Transpacific Foods
Japan berencana mengimpor
pisang Cavendish dari
PT Nusantara Tropical Farm (NTF) sebanyak
8.147 ton dan nanas
sebanyak 1.673 ton
Figure 4 Text annotation and tagging

Keuntungan yang bisa diperoleh dari
penggabugan data terstruktur dengan data tidak
terstruktur bisa dirasakan jika kita ingin
mengetahui jawaban dari pertanyaan misal seperti
berikut: “Perusahaan apa saja yang berencana
mengimpor pisang dari Indonesia, serta berapa
presentase pisang yang diimpor terhadap total
ekspor komoditas buah-buahan Indonesia?” Jika
untuk menjawab pertanyaan tersebut hanya
menggunakan sumber data tunggal yaitu data
terstruktur. Pertanyaan tersebut belum bisa
terjawab secara sempurna. Namun, jika
menggunakan informasi yang tersimpan dalam
CDW yang merupakan integrasi dari data
terstruktur dan tidak terstruktur, maka pertanyaan
tersebut bisa terjawab dengan lengkap.

V.

KESIMPULAN

Text tagging dan annotation berperan sangat
significant dalam integrasi data terstruktur dan
tidak terstruktur. Output dari integrasi data
tersebut, complete data warehouse, memberikan
landasan yang kuat dalam pendukung pengambilan
keputusan dan inteligensi bisnis.
Menghilangkan pembatas antara data terstruktur
dan tidak terstruktur berdampak pada cara
perusahaan dalam memperlakukan dan mengolah
datanya. Memang secara alami, data tidak
terstruktur tersebut sangat sulit untuk diekstraks
dan diintegrasikan dengan data terstruktur. Namun
output dari integrasi data terstruktur dan tidak
terstruktur tersebut memberikan manfaat yang
besar bagi perusahaan/organisasi.
Seperti yang telah diperlihatkan pada
pembahasan, teknologi ini bisa membantu
perusahaan dalam mengambil keputusan yang
strategis dan taktis dalam inteligensi bisnis dengan

memanfaatkan data dari berbagai sumber baik itu
data terstruktur maupun tidak terstruktur.

REFERENSI
[1] Coker, Frank (2014). Pulse: Understanding the Vital
Signs of Your Business. Ambient Light Publishing.
hlm. 41-42. ISBN 978-0-9893086-0-1.
[2] Evelson, Boris (21 November 2008). "Topic
Overview: Business Intelligence"
[3] Knox, Rita, T. Eid, & A. White. “Management
Update: Companies should align their structured
and unstructured data,” Gartner Research, Feb 2005
[4] K.P. Byung & Y.S. Il. “Toward Total Business
Intelligence
Incorporating
Structured
and
Unstructured Data”. 2011.
[5] Sukumuran. Sreekumar
& Sureka, Ashish.
“Integrating Structured and Unstructured Data
Using Text Tagging and Annotation”
[6] http://ekbis.sindonews.com/read/1018103/34/wowbutuh-tujuh-tahun-pisang-ri-tembus-jepang1435564455 [terakhir diakses 30 Juni 2015]
[7] https://id.wikipedia.org/wiki/Inteligensi_bisnis