ae6a114a ae4f 4492 a125 c1819281b19d

OPENING DATA
FOR BETTER EDUCATION

Linking Freedom of Information and Open Data for
Greater Transparency and Participation in Banda Aceh

Full Report

18 December 2014

A project of World Wide Web Foundation and Kinerja funded by the USAID,
implemented by the Open Data Lab Jakarta

J A K A R TA

Opening Data for Better Education

TABLE OF CONTENTS
1.

2.


Introduction

03

1.1.

Background of the Activities

04

1.2.

Coverage of this Report

06

Project Accomplishments

07


Component 1. Deining Priority Information and Data Needs

07

Component 2. Support to Banda Aceh City Government

10

Component 3. Capacitating CSOs in Open Data Usage

13

3.

Lessons Learned

15

4.


Annexes

19

Annex 1: Activity Pictures

19

Annex 2: About the Open Data Lab Jakarta and the

22

World Wide Web Foundation
Annex 3: Modul Pelatihan Data Terbuka

Attached

Annex 4: Modul Pelatihan Keterampilan


Attached

Mengolah Data

3

Opening Data for Better Education

1. INTRODUCTION
With funding support from the United States Agency for International Development
through RTI International, the Web Foundation’s Open Data Lab in Jakarta implemented
the ‘Linking Freedom of Information and Open Data for Greater Transparency
and Participation in Banda Aceh’ Project (hereinafter the OD and FOI – Banda Aceh
Project).

The project was implemented from 01 November – 15 December 2014 in Banda Aceh,
Indonesia in partnership with GeRAK Aceh and the city government of Banda Aceh.

The project intended to achieve the following objectives:




Assess the data needs of civil society organizations (CSOs) and their constituents
to match with information disclosure practices of the city government;



Support the city government in understanding the key priority information and
data needs of CSOs and their constituents;



Increase the capacity of CSOs to understand, use, and translate government
data into actionable information for the use of citizens and disseminate these
for wider impact.

4

Opening Data for Better Education


1. INTRODUCTION

1.1 BACKGROUND OF THE ACTIVITIES

Three (3) workshops were conducted in the course of this project, each with a
distinctive set of outputs to achieve the objectives mentioned above. A summary of
the workshop speciications is presented below:

Component

Activities

Speciic Outputs

Component 1:
Deining Priority Data and
Information Needs

1 day workshop with
CSOs to deine priority

information and data
needs

List of at least ten (10)
priority data needs in
the education sector that
CSOs identify as critical

Component 2:
Support to the Banda
Aceh City Government

1 day workshop on the
fundamentals of open
data with selected oicials
of the city administration
of Banda Aceh

List of meaningful data the
city government of Banda

Aceh is committed to
disclose based on the list
of priority needs

Technical support to the
concerned agency from
the Open Data Lab Jakarta
technical team to identify,
assess, clean and publish
datasets in open format

Meaningful data that
the city government is
committed to sharing is
published online

2-3 days capacity building
workshop on ‘working
with open data for impact’:
selected intermediary

groups underwent
training on working with
open data, i.e. reading,
analysing data and
communicating the results

CSOs are able to
produce outputs from
open data to serve their
constituents for a chosen
purpose (e.g. advocacy,
research, information
dessimination, etc.)

Component 3:
Capacitating CSOs on
Open Data Usage

5


Opening Data for Better Education

1. INTRODUCTION
1.2 COVERAGE OF THIS REPORT

This document reports on the accomplishments of the project from the time it started
in November 2014 to the inal workshop in December 2014.

6

Opening Data for Better Education

2. PROJECT ACCOMPLISHMENTS
COMPONENT 1. DEFINING PRIORITY INFORMATION
AND DATA NEEDS

Activity
Workshop for civil society groups to deine and prioritize data information needs.

Outputs

Output 1.1.
A total of 24 (18 male, 6 female) participants coming from 19 organizations learned about
Freedom of Information (FOI) and open data.

19 organizations were represented in the workshop. The graph below shows the
distribution of these organizations in terms of size:

56%

Small organizations

39%
Moderate organizations
Large organizations

6%

6

Opening Data for Better Education

2. PROJECT ACCOMPLISHMENTS
COMPONENT 1. DEFINING PRIORITY INFORMATION
AND DATA NEEDS

The following sectors were represented:

Sector

Count

Education

15

Health

11

Budget

11

Environment

7

Tourism

4

Agriculture

4

Women Empowerment

2

Extractives

1

Transparency / Anti-corruption

1

Note that while majority of the organizations work primarily in the education
sector, there was a high degree of interest on open data from other sectors.
One (1) of the major questions in the irst CSO workshop was the question of
why the project only focused on education when open data is also relevant in
other sectors such as budget, health, and the environment. The team informed
the participants that as a pilot project and with limited time and resources, the
project wants to build a proof of concept in one of the sectors that Kinerja works
on - education.
7

Opening Data for Better Education

2. PROJECT ACCOMPLISHMENTS
COMPONENT 1. DEFINING PRIORITY INFORMATION
AND DATA NEEDS

Immediate Outcomes for Output 1.1
Participants increased their knowledge on FOI and open data as evidenced by
the results of the review workshop conducted in the project workshop for CSOs
in component 3.

Output 1.2.
A total of nine (9) priority data needs were identiied by the CSO participants that
they wanted the city government to proactively disclose. The list below shows the
priority data needs of CSOs within education:
1. School performance/achievement (test results, competition, acceptance
rates in the next level)
2. School facilities
3. Teacher (number, qualiication, background, certiication, status, title)
4. School proile (management, regulation, workplan, curriculum)
5. Students (number of male and female students, teacher to student ratio)
6. Library (collection, number of collections, visits)
7. Non-teaching staf (number, status, qualiication)
8. Budget (budget plan, expenditure, list of scholarship grantees)
9. Sources of funding

Immediate Outcomes for Output 1.2
CSOs were able to deine what sorts of data and information mattered to them
and their constituents.

9

Opening Data for Better Education

2. PROJECT ACCOMPLISHMENTS

COMPONENT 2. SUPPORT TO BANDA ACEH CITY GOVERNMENT

Activity
Workshop with Banda Aceh city government on proactive disclosure and FOI.

Outputs
Output 2.1.
A total of 40 civil servants (21 male, 19 female) from the city government of Banda Aceh
participated in the workshop on FOI and proactive disclosure. The oices represented
were the following:
1. Education
2. Planning
3. Information commission
4. Finance and asset management
5. Health and sanitation
6. Sharia court
7. Public relations
8. Transportation
9. Local police
10. Social welfare and labour

Immediate Outcomes for Output 2.1
The oicials became committed to publish open datasets. The city government even
wanted to extend training support to other departments.

10

Opening Data for Better Education

2. PROJECT ACCOMPLISHMENTS

COMPONENT 2. SUPPORT TO BANDA ACEH CITY GOVERNMENT

Output 2.2.
A total of eight (8) participants (7 male, 1 female) from the city government of Banda Aceh
were trained in open data basics to ensure publication of open data in the web.

Output 2.3.
A total of 16 open data sets were published online by the Education Department. This is
available at http://data2.bandaacehkota.info/group/disdikpora-banda-aceh. These data
sets are as follows:
1. Graduation from senior high school
2. Graduation from junior high school
3. Graduation from vocational school
4. Awards obtained by schools
5. Budget and budget realization
6. Teacher education and certiication (PNS)
7. Teacher education and certiication (non-PNS)
8. Facilities / infrastructure in school
9. School proile
10. Admission of students in schools
11. Number of students (High School, Junior High School, Vocational)
12. Budget and budget realization - Services
13. Budget and budget realization – High school

11

Opening Data for Better Education

2. PROJECT ACCOMPLISHMENTS

COMPONENT 2. SUPPORT TO BANDA ACEH CITY GOVERNMENT

14. Budget and budget realization – Vocational
15. Budget and budget realization – Junior High School
16. Data on disadvantaged students

Immediate Outcomes for Output 2.3
In the public event, the head of the education department committed to open all of the
department’s data to the public.

Output 2.4.
An unintended output realized was the publication of eight (8) open datasets by the
transportation and communication departments.

These are published by http://data2.bandaacehkota.info/group/dishubkominfo-bandaaceh.

Immediate Outcomes for Output 2.4
There is strong interest from other departments within the Banda Aceh city government
to open data to the public.

Output 2.5.
Open Data Lab Jakarta produced a guide for civil servants to use in proactively disclosing
open data.

12

Opening Data for Better Education

PROJECT ACCOMPLISHMENTS

COMPONENT 3. CAPACITATING CSOs IN OPEN DATA USAGE

Activity Outcomes
3-day capacity building workshop on ‘working with open data for impact’.

Output
Output 3.1.
A total of 28 civil society representatives (17 male, 11 female) coming from 19 organizations
were trained in online and oline visualization as well as telling narratives from visualized
data.

Output 3.2.
A total of six (6) online and oline data visualization as well as data narratives were
developed by CSO participants, indicating increased competency in working with open
data.

Immediate Outcomes for Output 3.2
Two (2) data narratives based on visualized data were presented during the public event.
This generated reactions from the participants. In the forum, the head of the education
department welcomed these suggestions and recommendations1 highlighted in the data
narratives and committed to deal with these in order to improve education performance
in the city.

For the inal workshop, the irst presentation recommended the need to socialize and improve transparency of School Operational Assistance
“BOS” funds, while the second presentation argued the correlation between education funds and declining of school performance in Banda Aceh.
Accordingly, both presentations were interconnected as the usage of education funds should be focused on students’ needs and improving their
accomplishment.

13

Opening Data for Better Education

PROJECT ACCOMPLISHMENTS

COMPONENT 3. CAPACITATING CSOs IN OPEN DATA USAGE

Output 3.3.
Open Data Lab Jakarta created a guide on open data basics for CSOs to use, appended
in Annex 3.

Open Data Lab Jakarta, for its own purposes, is currently conducting extensive
documentation of the processes undertaken in this project and the outcomes on the part
of people from both CSOs and city government. This is documented through narrative
documentation and taped interviews, which will be shared on the project website (http://
labs.webfoundation.org) in due time as part of the Lab’s communication materials and
research reports.

14

Opening Data for Better Education

LESSONS LEARNED
The project implementation yielded the following lessons learned that will inform future
work regarding open data and its intersection with freedom of information:

On CSOs Awareness regarding FOI and Open Data


While access to information has improved for at least three (3) CSOs represented in
the workshop, the majority of the CSOs in Banda Aceh have not exercised their right
primarily because of lack of awareness on how to exercise or avail of their right to
information and the perception that exercising it is cumbersome.



There is low awareness on the part of CSOs regarding open data. They associate
open data with web applications. Only after an explanation of open data concepts
were the participants able to see its value and how it complements with freedom of
information.

On Government’s Attitude towards FOI and Open Data


Civil servants see the value of sharing information to the public. Most of them
expressed the commitment that if CSOs will ask for speciic information, for as long
as these are available, they will provide it.



However, while there is interest in proactively disclosing information to the public,
there is also a certain degree of apprehension in opening up data. Civil servants are
afraid that the data would fall into the wrong hands, that it could be misused, and that
those having access to it could modify the data to the disadvantage of government.

15

Opening Data for Better Education

LESSONS LEARNED
Nevertheless, in less than two (2) months, the project was successful in achieving the set
objectives. The relative ease by which the project was able to achieve project objectives
with limited time and resources were caused by the following:

Strong civil society organizations
While an assessment of organizations was not conducted by the project, the discussions
in the workshops and the outputs that were achieved point to a certain degree of
maturity of CSOs and the availability of requisite skills in some of the organizations
to analyze, visualize, and tell narratives from data. It was also evident that some of
the organizations (e.g. GeRAK Aceh, transparency groups and local media including
Advokasi Rakyat Aceh (PAKAR), Gerakan Aktivis Muda-Guru Bersatu (GAM-GB), Jurnalis
Warga, Sekolah Anti Korupsi (SAKA), Aliansi Jurnalis Independen (AJI), Persatuan Guru
Republik Indonesia (PGRI), Radio Elshinta, Lembaga Pembinaan dan Pengembangan
Masyarakat (LPPM) Aceh, Fakultas Ilmu Sosial dan Politik - Universitas Syiah Kuala
and Majelis Pendidikan Daerah (MPD)) already had strong relationships with the local
government and are able to inluence decisions, especially in the education sector –
the sector tested in this project.

Committed local government leaders
The key to the success of the project was the commitment of local government leaders.
Had government leaders not expressed commitment to proactively disclose data and
had their staf trained in to do so, the CSO workshop, the main intention of the project,
would not have happened.

16

Opening Data for Better Education

LESSONS LEARNED
Good working relationship of Kinerja
with Banda Aceh city government and the CSOs
The project was introduced to the local government and the CSOs through Kinerja.
Kinerja’s work and good reputation in the area hastened all processes and ensured
that key stakeholders attend the three (3) workshops scheduled.

Good project design and capable team
The relevance, efectiveness, and eiciency of the design made possible the
achievement of the objectives. This is coupled with the competence and commitment
of the implementation team at the Open Data Lab Jakarta who made sure that activities
were completed within the time frame in partnership with GeRAK Aceh and the city
government of Banda Aceh.

Moving forward, the following recommendations are proposed:

Kinerja should continue encouraging the local government to
sustain its current eforts in proactively disclosing data.
The civil servants trained in open data through this project can already support other
departments who want to disclose their data proactively. Kinerja should also follow-up
with the city government to ensure that the beta site –
http://data2.bandaacehkota.info/ - will be inalized and publicly disseminated.

17

Opening Data for Better Education

LESSONS LEARNED
Gerak Aceh should act as a lead convenor of open data advocates
in the city and should follow through on the commitments of
trained CSO participants.
While initially, there are commitments on the part of the CSOs to implement activities
based on the things they have learned (e.g. writing a blog post, drafting an analysis
paper, informing their constituents, among others), there is a need to monitor progress
on these commitments to sustain the momentum.

Open Data Lab Jakarta is committed to support both Kinerja and Gerak Aceh in these
endeavours remotely. Appropriate contact details have already been shared to ensure
that Open Data Lab Jakarta can continuously support the city government and the CSOs.

18

Opening Data for Better Education

ANNEX 1

ACTIVITY PICTURES

Participants from the1st and 2nd Workshops: Participants identiied and listed their data set demands from the education agency
and warmed up to the ideas of freedom of information and open data.

19

Opening Data for Better Education

ANNEX 1

ACTIVITY PICTURES

Participants from the 3rd Workshop: The Lab facilitators kicked of the workshop with a game, discussed about open data and data
visualisation and the participants presented their answers on what they understand of open data using an oline format.
20

Opening Data for Better Education

ANNEX 1

ACTIVITY PICTURES

Participants from the 3rd Workshop and the public event: Participants presented their oline and online visualisations as results
of the workshop, with our partners from the Banda Aceh City Government, GeRAK Aceh and Kinerja watching their presentations.
The workshop ended with all present voting on who they thought had the best examples of online and oline data visualisations.
21

Opening Data for Better Education

ANNEX 2

ABOUT THE OPEN DATA LAB JAKARTA
AND WORLD WIDE WEB FOUNDATION

About the Open Data Lab Jakarta
Run by the World Wide Web Foundation and inancially supported by Ford Foundation,
the Open Data Lab Jakarta is innovating with open data for social change. By trying out
new approaches, we want to accelerate progress and ensure open data rapidly becomes
a vital tool to tackle practical problems in developing and emerging economies.

About the World Wide Web Foundation
Established by the inventor of the Web, Sir Tim Berners-Lee, the World Wide Web
Foundation seeks to establish the open Web as a global public good and a basic right,
creating a world where everyone, everywhere can use the Web to communicate,
collaborate and innovate freely. Represented by more than a dozen nationalities working
from hubs in London, Washington DC and Cape Town, the World Wide Web Foundation
operates at the conluence of technology and human rights, targeting three key areas:
Access, Voice and Participation.

22

Modul Pelatihan Data Terbuka

18 Desember 2014

1

2

Daftar Isi
Daftar Isi
Pengenalan Format CSV
Apa itu CSV?
Mengapa CSV?
Aturan Format CSV
Strategi Penyusunan Data
Ekstraksi Data
Data HTML
Data PDF
Data Gambar (JPG, PNG, GIF)
Persiapan Data
Pembersihan Data
Inkonsistensi
Duplikasi Data
Pencacahan Ulang Data
Penulisan Tidak Baku
Konversi Data
Data Excel
Data gSheet
Publikasi Data
Apa itu Metadata?
Isian Metadata
Aturan Pengisian

3

1.

Pengenalan Format CSV

Apa itu CSV?
Data dalam comma-separated values atau disingkat CSV merupakan data tabular disimpan dalam
bentuk teks-biasa dipisahkan oleh tanda koma. Sebagai contoh, apabila Anda memiliki data
tabular dalam bentuk tabel sebagai berikut:

kolom1

kolom2

kolom3

kolom4

nilai1

nilai2

nilai3

nilai4

nilai5

nilai6

nilai7

nilai8

Maka dapat disimpan dalam format CSV sebagai:
kolom1,kolom2,kolom3,kolom4
nilai1,nilai2,nilai3,nilai4
nilai5,nilai6,nilai7,nilai8
Perhatikan bahwa setiap baris dibentuk dalam jejeran baru dan setiap kolom dipisahkan oleh
tanda koma. Baris pertama selalu dikhususkan untuk nama-nama kolom.

Mengapa CSV?
Terdapat dua alasan utama penggunaan format CSV untuk pertukaran data, antara lain:
1.

Format CSV berbasis teks-biasa. Istilah “teks biasa” dalam teknologi informasi (TI)
diartikan sebagai cara penyimpanan informasi dalam bentuk rangkaian karakter
penulisan teks. Hal ini membuat CSV mudah dibuat oleh siapapun.

2.

Berkas CSV dapat dengan mudah diimpor oleh program tabular apapun atau dibuka
oleh banyak jenis aplikasi tanpa memperdulikan sistem komputer yang dipakai (baik
Windows, Linux, OSX, dlsb.)

Aturan Format CSV
Secara singkat format ini diimplementasikan sebagai berikut:



Setiap baris data dipisahkan oleh kontrol Enter.
aaa,bbb,ccc
zzz,yyy,xxx

4



Kontrol Enter di akhir baris data boleh ditiadakan.
aaa,bbb,ccc
zzz,yyy,xxx



Baris pertama selalu dikhususkan untuk nama-nama kolom.
nama_kolom,nama_kolom,nama_kolom
aaa,bbb,ccc
zzz,yyy,xxx



Nama kolom dan nilai data dipisahkan oleh tanda koma. Kehadiran spasi tidak boleh
diabaikan karena dapat mempengaruhi nama kolom atau nilai data. Nama kolom atau
nilai data paling terakhir tidak boleh terdapat tanda koma.
aaa,bbb,ccc



Tanda kutip boleh diikutsertakan dalam penulisan nama kolom atau nilai data.
“nama_kolom”,”nama_kolom”,”nama_kolom”
“aaa”,”bbb”,”ccc”



Nilai data yang mengandung koma atau baris baru wajib diapit oleh tanda kutip.
“a,aa”,”b
bb”,”ccc”
zzz,yyy,xxx



Jika tanda kutip digunakan untuk mengapit nilai data maka tanda kutip yang menjadi
bagian nilai data wajib dibubuhi kontrol penanda backslash.
“aaa”,”\”bbb\””,”ccc”

2.

Strategi Penyusunan Data

5

Diagram alir di atas memperlihatkan strategi dasar untuk menghasilkan data CSV atas data-data
publik milik pemerintah:
Data yang berasal dari berkas HTML, PDF dan gambar (misal. JPG, PNG, GIF) akan



dilakukan ekstraksi untuk mendapatkan data tabular. Data Excel pada dasarnya
berbentuk data tabular.
Data tabular tersebut kemudian perlu dipersiapkan untuk memenuhi kriteria format CSV



yang valid.
Data tersebut kemudian perlu dibersihkan untuk ditingkatkan kualitas dan keabsahan



penulisan nilai datanya,
Konversi data akan menyajikan data tabular dalam format CSV,




Data CSV yang dihasilkan akan diunggah ke situs daring agar dapat diakses oleh semua
orang.

3.

Ekstraksi Data

Berikut ini adalah strategi praktis ekstraksi data menurut format asal data:

Data HTML
Beberapa metode ekstraksi yang dapat digunakan:
i.

Salin-dan-Rekat
i.

Persiapkan halaman situs yang berisikan tabel data,

ii.

Pilih semua data yang diinginkan dan salin data-data tersebut,

iii.

Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.

6

ii.

Fungsi importHTML (khusus aplikasi Google Sheet/gSheet)
i.

Persiapkan halaman situs yang berisikan tabel data,

ii.

Salin alamat URL situs tersebut,

iii.

Buka aplikasi gSheet,

iv.

Fungsi importHTML membutuhkan input isian ekstraksi sbb:

v.

i.

Alamat URL: Alamat target halaman situs yang mengandung tabel data,

ii.

Jenis Data: Isi selalu jenis “table”,

iii.

Indeks: Nomor urutan tabel yang ingin diekstrak dari halaman situs.

Apabila input ekstraksi diberikan secara benar, aplikasi gSheet akan mengekstrak data
secara otomatis dan menyimpannya di lembar spreadsheet.

Contoh penggunaan di bawah ini akan mengambil data populasi setiap negara yang
terdapat di halaman situs Wikipedia.org

Data PDF
Beberapa metode ekstraksi yang dapat digunakan:
i.

Salin-dan-Rekat
i.

Buka berkas menggunakan program pembaca PDF seperti Acrobat Reader,

ii.

Salin tabel data yang ingin diekstrak,

iii.

Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.

7

ii.

Program Tabula (http://tabula.nerdpower.org/)
i.

Jalankan Tabula dan secara otomatis akan membuka halaman aplikasi di web browser.
Perhatikan bahwa aplikasi ini dapat berjalan tanpa koneksi Internet (luring) walaupun
dijalankan di browser.

ii.

Pilih Choose File untuk menentukan berkas PDF yang ingin diekstrak.

iii.

Tentukan area ekstraksi di halaman PDF. Proses ekstraksi akan secara otomatis
berjalan setelah penentuan area ekstraksi tersebut atau melalui tombol Download All
Data.



Simpan hasil ekstraksi memakai format CSV.

Data Gambar (JPG, PNG, GIF)
Data gambar merupakan format yang paling sulit untuk diekstraksi secara otomatis. Ada teknik
bernama Optical Character Recognition (OCR) yang dapat mengekstrak teks cetak dalam gambar
menjadi teks komputer. Walaupun demikian presisi ekstraksi sangat tergantung dari kualitas
teks yang diberikan (misal. tulisan tangan akan lebih sulit dideteksi dan dikenali karakternya).

8

Beberapa layanan OCR gratis dan tersedia di Internet antara lain:




Free OCR (http://www.free-ocr.com)
New OCR (http://newocr.com)

Pilihan lain yang dapat digunakan untuk mengekstrak data gambar adalah dengan melibatkan
komunitas Internet, atau sering diistilahkan crowdsourcing. Salah satu situs penyedia layanan
pemanfaatan-massal adalah CrowdCrafting (http://crowdcrafting.org).

4.

Persiapan Data

Sering kali ditemukan bermacam variasi penyusunan data tabular. Namun tidak semua bentuk
variasi tersebut memenuhi kriteria format CSV yang valid. Berikut ini adalah beberapa petunjuk
praktis untuk mempersiapkan data tabular yang sesuai dengan format CSV:



Hilangkan judul tabel
Penulisan judul tabel tidak termasuk dalam implementasi format CSV oleh karena itu
perlu dihilangkan dari sumber asalnya.



Kepala tabel harus termuat dalam satu baris
Kepala tabel selalu berada di baris pertama dan terdiri dari satu baris saja. Jika terdapat
beberapa kepala tabel maka perlu dilebur jadi satu atau dipisahkan dalam beberapa
tabel.



Gunakan satu tipe data per kolom

9

Ketidakjelasan tipe data dalam satu kolom dapat menyebabkan data sulit dianalisis
secara otomatis. Oleh karena itu data majemuk perlu dipisahkan dalam beberapa kolom,
jika diperlukan.



Pisahkan data mentah dengan data hasil analisis
Data harus disajikan dalam bentuk paling primer (yi. data mentah). Hal ini dikarenakan
data mentah dapat dipakai berulang dalam ragam analisis yang berbeda. Data hasil
analisis hendaknya disajikan terpisah dari data asli.



Pastikan informasi tertangkap lengkap dan unik sebagai baris
Aturan praktisnya, setiap baris memiliki informasi unik yang menjelaskan satu obyek
atau entitas. Apabila dirasa ada informasi yang hilang maka perlu ditambahkan kolom
baru. Apabila lebih dari satu baris terdapat kesamaan informasi (atau tidak unik) maka
itu pertanda duplikasi.



Lakukan anonimisasi data yang mengandung informasi non-publik
Terdapat beberapa teknik yang dapat digunakan untuk melakukan anonimisasi data.
Tiga diantaranya adalah menggunakan teknik agregasi, penghapusan secara langsung
dan melakukan pengkodean (hashing).

5.

Pembersihan Data

Pembersihan data penting dilakukan untuk meningkatkan kualitas data sebelum data
dipublikasikan. Pada bagian ini akan diberikan beberapa petunjuk praktis membersihkan data
menggunakan aplikasi OpenRefine (http://openrefine.org).



Pilih Create Project dan tentukan berkas CSV yang ingin dibersihkan,



Data yang diunggah akan ditampilkan sebagai pra-tayang. Pastikan tabel terbaca secara
benar.

10



Berikan nama proyek yang sesuai dan pilih Create Project.



Proyek yang terbentuk akan menampilkan data yang berhasil diunggah.

Berikut ini adalah beberapa isu yang berkaitan dengan pembersihan data yang dapat diatasi
menggunakan aplikasi OpenRefine.

Inkonsistensi
Mendeteksi inkonsistensi dapat dikerjakan dengan menggunakan fungsi Cluster.



Pilih Edit cells diikuti oleh Cluster and edit... di kolom yang ingin diperiksa.

11



Secara otomatis OpenRefine akan mempopulasikan nilai-nilai data yang memiliki
kemiripan pengisian. Sebagai contoh dari tampilan di bawah terdapat 3 macam
penulisan nama Kelurahan Pal Meriam, antara lain: “Pal Meriam”, “Pal meriam” dan “PAL
Meriam”.



Selanjutnya pemilik data menentukan isian data yang paling tepat untuk dipakai di
setiap kemiripan yang ditemukan.

Duplikasi Data
Mendeteksi duplikasi dapat dikerjakan dengan menggunakan fungsi Facet.



Pilih Facet diikuti oleh Text Facet di kolom yang ingin diperiksa.

12



Secara otomatis OpenRefine akan mempopulasikan semua nilai data di kolom tersebut
dan memberikan hasil penghitungan nilai-nilai tersebut. Dengan demikian data duplikat
dapat dikenali dengan mudah.

Pencacahan Ulang Data
Sering kali ditemui data-data dengan arti yang sama disusun dengan pengisian nama atau label
yang berbeda. Hal ini menyebabkan pengelompokan tidak efisien dan pencacahan data tidak
maksimal.
Mendeteksi pencacahan data yang tidak efisien dapat dikerjakan dengan menggunakan fungsi
Facet. Hal ini dikarenakan fungsi ini dapat mempopulasikan semua jenis isian dan dapat
diketahui pengisian apa yang tidak efisien.

13

Gambar di atas memperlihatkan beragam pengisian data “korsleting listrik” yang seharusnya
dapat lebih efisien pengelompokannya.

Penulisan Tidak Baku
Penulisan data yang tidak baku mengacu pada kesalahan penyajian data berdasarkan tipe data
yang hendak dipakai. Kesalahan-kesalahan tersebut antara lain:



Pemakaian tanda finansial (seperti simbol mata uang dan pemisah desimal) di kolom
data angka,




Penggunaan nama bulan di kolom tanggal,
Penulisan nama alamat yang tidak memenuhi syarat minumum.

Perbaikan penulisan yang tidak baku dapat berlangsung lama karena perlu diproses satu per
satu. Akan tetapi untuk perbaikan yang dapat dilakukan secara serentak dapat menggunakan
fungsi Transform.



Pilih Edit cells diikuti oleh Transform... di kolom yang ingin dibuat perbaikan.

14



Kotak dialog transformasi akan muncul dimana perintah transformasi dapat diberikan
untuk mengubah isian nilai data secara serentak.

OpenRefine menggunakan standar perintah Google Refine Expression Language, disingkat GREL
untuk menuliskan perintah transformasi. Berikut adalah beberapa perintah yang umum dipakai:
Nama Perintah

Deskripsi

Contoh Penggunaan

Tulis huruf kecil

Mengubah teks menggunakan huruf kecil
semua.

toLowercase(value)

Tulis huruf kapital

Mengubah teks menggunakan huruf
kapital semua.

toUppercase(value)

Tulis judul

Mengubah teks menggunakan huruf besar
di setiap awal kata

toTitlecase(value)

Bersihkan teks

Membersihkan teks dari spasi berlebih

trim(value)

Hilangkan penanda
desimal

Membuat tanda titik dan koma hilang dari
teks

replaceChars(value, “.,”, “”)

Hilangkan simbol
mata uang Rupiah

Membuat simbol ‘Rp’ hilang dari teks

replace(value, “Rp”, “”)

15

Hilangkan simbol
mata uang Dollar

Membuat simbol ‘$’ hilang dari teks

Ubah format tanggal Membuat penulisan tanggal menjadi baku
sesuai standar.

replace(value, “$”, “”)
toDate(value,
“dd/MM/yyyy”).toString(“YYYYMM-dd”)

Untuk manual lengkap perintah-perintah GREL dapat ditemukan di alamat situs
https://github.com/OpenRefine/OpenRefine/wiki/GREL-Functions

6.

Konversi Data

Penyusunan data CSV menggunakan aplikasi komputer adalah sangat mudah dan dapat
dilakukan secara instan, khususnya apabila data tersebut sudah berbentuk data tabular (misal.
data Excel atau Google Sheet).

Data Excel
Mengkonversi data Excel (*.xls, *.xlsx) ke CSV sangat mudah dengan menggunakan perintah
Save As. Khusus untuk versi Excel 2007 dan ke atas lakukan langkah-langkah sebagai berikut:




Pilih tombol Microsoft Office

kemudian pilih Save As,

Di dalam kotak dialog Save As pilih format berkas “CSV (Comma delimited) (*.csv)”.

Data gSheet
Mengkonversi data gSheet ke CSV sangat mudah dengan menggunakan perintah Download As.




Pilih menu File diikuti Download as,
Pilih pilihan Comma-separated values (.csv) dan sesegera data dalam spreadsheet diunduh
otomatis dalam bentuk CSV.

16

7.

Publikasi Data

Apa itu Metadata?
Metadata diartikan sebagai data mengenai suatu data. Didalamnya terkandung spesifikasi atau
penjabaran yang menjelaskan isi konten data yang dipublikasikan. Metadata sangat berguna
untuk meyusun daftar koleksi data atau katalog untuk memudahkan pencarian data.

Isian Metadata
Berikut ini diberikan daftar nama isian untuk penulisan metadata dataset. Kecuali disebutkan
keterangan “opsional”, semua label isian di bawah adalah bersifat wajib dan harus tercantum
dalam metadata.
Nama Dataset
Nama yang diberikan untuk dataset (yi. kumpulan data).
Deskripsi Dataset
Keterangan yang berisi perihal dan catatan penting mengenai dataset.
Tag
Satu atau lebih kata kunci yang memberikan petunjuk perihal dataset.
Organisasi
Nama organisasi yang menerbitkan dataset.
Nama Kontak

17

Nama kontak penyedia data yang bertanggung jawab terhadap dataset.
Email Kontak
Alamat email penyedia data yang bertanggung jawab terhadap dataset.
Visibilitas
Keterangan tingkat pengaksesan dataset.
Frekuensi Penerbitan
Keterangan frekuensi penerbitan dataset yang biasa dilakukan oleh penyedia data.
Level Penyajian
Keterangan derajat perincian dataset yang disusun oleh penyedia data.
Tahun
Keterangan periode, informasi tahun dari dataset. Informasi kapan dataset tersebut
diproduksi atau diperoleh.
Cakupan
Keterangan nama daerah atau wilayah yang menginformasikan tempat dimana dataset
berlaku atau diambil.
Nama Sumber Daya
Nama yang diberikan untuk berkas.
Deskripsi Sumber Daya
Keterangan mengenai berkas atau sumber daya.
Berkas
Nama berkas yang berisikan data.
Format
Format berkas sesuai label ekstensi berkas.
Lisensi
Nama lisensi yang mengatur izin pemakaian data.
Grup
(Opsional) Label klasifikasi yang sesuai dengan tema dataset.
Sumber
(Opsional) Tautan tambahan yang berisikan lokasi dataset diluar situs portal data.
Rujukan
(Opsional) Tautan tambahan yang berisikan keterangan lebih detil perihal dataset.
Umumnya diberikan apabila penyedia data memiliki informasi tambahan (seperti
metadata yang sudah dibuat oleh pemilik data) yang disimpan di situs asalnya.

Aturan Pengisian
Pengisian informasi metadata bertujuan untuk memberikan ringkasan berita mengenai dataset
yang dipublikasikan. Informasi ini akan banyak dipakai untuk kebutuhan pencarian dataset di
dalam sistem. Oleh karena itu penting diperhatikan dalam pemilihan kata kunci dan deskripsi
yang singkat dan jelas. Berikut adalah beberapa petunjuk praktis pengisian nama-nama isian
metadata:

18



Penulisan nama dataset perlu terdapat tema tertentu
Beberapa kata kunci yang dapat dijadikan tema antara lain:
1.

perihal data (cth. anggaran belanja, nilai produksi, volume ekspor, tingkat
kriminalitas),

2.

obyek utama data (cth. puskesmas, sekolah dasar, universitas negeri, jalan raya,
penduduk),

3.

lokasi asal data (cth. Indonesia, DKI Jakarta, Jakarta Barat, Teluk Jakarta),

4.

tingkat penyajian data (cth. rekapitulasi, daftar), dan sebagainya.

Jika dimungkinkan, hindari penggunaan detail periode waktu pada penulisan nama
dataset. Informasi ini dapat dialihkan ke tingkat penamaan berkas data.
Contoh penulisan nama dataset yang baik:
Rekapitulasi Anggaran Pendapatan dan Belanja Daerah DKI Jakarta
Daftar Sekolah Menengah Atas Negeri Jakarta Selatan
Daftar Kasus Kriminalitas Pencurian Jakarta Pusat
Tingkat Polusi Udara Gas Berbahaya DKI Jakarta

Hindari penggunaan kata atau frase yang tidak mengandung tema, seperti “Dataset
Mengenai ...”, “Data Tentang …”, “Laporan ...”, dan sebagainya.



Elaborasi isi dataset secara jelas
Gunakan isian deskripsi untuk memaparkan secara jelas dan efisien isi data-data yang
terdapat dalam dataset. Cantumkan nama kolom dan penjelasan singkat untuk
membantu pengguna mengerti isi data.



Gunakan jumlah tag secara hemat
Jumlah maksimal yang dianjurkan adalah 4 buah. Gunakan batas maksimal ini sebagai
indikator perlunya dataset dipecah menjadi beberapa bagian sub-tema. Pastikan kata
kunci yang terdapat di nama dataset terdapat di isian label tag.



Selalu berikan rujukan kontak dari penyedia dataset
Dianjurkan untuk memberikan alamat email dari institusi yang bertanggung jawab
terhadap dataset.



Perhatikan lingkup periode setiap kali menerbitkan dataset
Isian tahun memberikan informasi interval waktu mengenai data yang diperoleh. Oleh
karena itu selalu perhatikan isian ini untuk memastikan keabsahan informasi periode
waktu yang disertakan.
Contoh penulisan lingkup periode tahun pembuatan:

19

2010
2010 - 2013
Januari 2013 - April 2013



Berikan detail waktu di penulisan nama data, jika memungkinkan
Penyusunan data selalu mengikuti periode waktu tertentu. Oleh karenanya informasi
waktu tersebut perlu disertakan dalam penulisan nama data guna mempermudah
pencarian.
Contoh penulisan nama dataset (cetak tebal) dan nama sumber daya:
Rekapitulasi Anggaran Pendapatan dan Belanja Daerah DKI Jakarta
APBD 2010
APDB 2011
APDB 2012
APDB 2013
Daftar Kasus Kriminalitas Pencurian Jakarta Pusat
Daftar Kasus Januari 2013
Daftar Kasus Februari 2013
Daftar Kasus Maret 2013
Daftar Kasus April 2013



Penulisan nama sumber daya mengikuti nama berkas data
Untuk memudahkan pemilihan nama berkas data, penulisannya dapat mengikuti nama
sumber daya yang diberikan.
Contoh penulisan nama dataset (cetak tebal), nama data (kolom pertama) dan nama
sumber daya (kolom kedua):
Rekapitulasi Anggaran Pendapatan dan Belanja Daerah DKI Jakarta
APBD 2010
APDB 2011
APDB 2012
APDB 2013

apbd-2010.csv
apbd-2010.xlsx
apbd-2011.csv
apbd-2010.xlsx
apbd-2012.csv
apbd-2012.xlsx
apbd-2013.csv
apbd-2013.xlsx

Daftar Kasus Kriminalitas Pencurian Jakarta Pusat

20

Daftar Kasus Januari 2013
daftar-kasus-pencurian-januari-2013.csv
Daftar Kasus Februari 2013
daftar-kasus-pencurian-februari-2013.csv
Daftar Kasus Maret 2013
daftar-kasus-pencurian-maret-2013.csv
Daftar Kasus April 2013 daftar-kasus-pencurian-april-2013.csv

21

Modul Pelatihan Keterampilan
Mengolah Data

18 Desember 2014

1

Daftar Isi
Daftar Isi
Ekstraksi Data
Data HTML
Data PDF
Membersihkan Data
Memulai Proyek
Inkonsistensi Data
Pengelompokan Ulang Data
Penulisan Angka Tidak Baku
Visualisasi Data Menggunakan Tableau Public
Mengenai Tableau Public
Membuka Data
Lembar Kerja (Worksheet)
Menyimpan dan Melihat Hasil Visualisasi

2

1.

Ekstraksi Data

Berikut ini adalah strategi praktis ekstraksi data menurut asal data:

Data HTML
Beberapa metode ekstraksi yang dapat digunakan:
1) Salin-dan-Rekat (atau Copy-and-Paste)


Persiapkan halaman situs yang berisikan tabel data,



Pilih semua data yang diinginkan dan salin data-data tersebut,



Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.

2) Fungsi importHTML (khusus aplikasi Google Sheet/gSheet)


Persiapkan halaman situs yang berisikan tabel data,



Salin alamat URL situs tersebut,



Buka aplikasi gSheet,



Fungsi importHTML membutuhkan input isian ekstraksi sbb:





Alamat URL: Alamat target halaman situs yang mengandung tabel data,



Jenis Data: Isi selalu jenis table,



Indeks: Nomor urutan tabel yang ingin diekstrak dari halaman situs.

Apabila input ekstraksi diberikan secara benar, aplikasi gSheet akan mengekstrak data
secara otomatis dan menyimpannya di lembar spreadsheet.

3

Contoh penggunaan di bawah ini akan mengambil data populasi setiap negara yang
terdapat di halaman situs Wikipedia.org

Data PDF
Beberapa metode ekstraksi yang dapat digunakan:
1) Salin-dan-Rekat


Buka berkas menggunakan program pembaca PDF seperti Acrobat Reader,



Salin tabel data yang ingin diekstrak,



Rekatkan data ke program tabular pilihan (cth. Excel, gSheet) untuk melihat hasilnya.

2) Program Tabula


Instalasi terlebih dahulu aplikasi ini ke komputer Anda dengan mengunduhnya di
alamat situs http://tabula.nerdpower.org.



Jalankan Tabula dan secara otomatis akan membuka halaman aplikasi di web browser.
Perhatikan bahwa aplikasi ini dapat bekerja tanpa koneksi Internet walaupun
dijalankan menggunakan browser.



Pilih Choose File untuk menentukan berkas PDF yang ingin diekstrak.

4



Tentukan area ekstraksi di halaman PDF. Proses ekstraksi akan secara otomatis
berjalan setelah penentuan area ekstraksi tersebut atau melalui tombol Download All
Data.

3) Layanan PDFTables


Jalankan browser Anda dan pergi ke alamat situs https://pdftables.com/



Klik tombol hijau “Select a PDF to convert NOW!” dan pilih dokumen PDF yang ingin
diekstrak.



Browser akan secara otomatis mengunggah dokumen tersebut ke server layanan dan
mengkonversi halaman PDF ke bentuk spreadsheet.

5

2.

Membersihkan Data

Membersihkan data penting dilakukan untuk meningkatkan kualitas data sebelum data
digunakan. Pada bagian ini akan diberikan beberapa petunjuk praktis membersihkan data
menggunakan program OpenRefine (http://openrefine.org).

Memulai Proyek
Untuk memulai pembersihan data menggunakan OpenRefine, pertama-tama input data perlu
dikenali oleh program untuk disimpan:


Pilih Create Project dan tentukan berkas CSV yang ingin dibersihkan di pilihan Choose Files.
Alternatif lain apabila nilai-nilai data pernah terekam dalam operasi salin (atau copy)
maka pilih pilihan Clipboard. Pilih Next untuk mulai penyimpanan.



Data yang berhasil disimpan akan diperlihatkan dalam tampilan pra-tayang. Pastikan
tabel terbaca secara benar oleh program. Gunakan opsi-opsi di bawah tampilan pratayang untuk mendapatkan hasil yang akurat.



Berikan nama proyek yang sesuai di isian pojok kanan atas dan pilih Create Project.

6



Proyek yang terbentuk akan menampilkan data yang berhasil disimpan dan pengguna
dapat memulai menggunakan perintah-perintah pembersihan data.

Berikut ini adalah beberapa isu yang berkaitan dengan pembersihan data yang dapat
diselesaikan menggunakan aplikasi OpenRefine.

Inkonsistensi Data
Mendeteksi inkonsistensi dapat dikerjakan dengan menggunakan fungsi Cluster.


Pilih Edit cells diikuti oleh Cluster and edit... di kolom yang ingin diperiksa.



Secara otomatis OpenRefine akan mempopulasikan nilai-nilai data yang memiliki
kemiripan pengisian. Sebagai contoh, gambar di bawah memperlihatkan inkonsistensi

7

data pemadam kebakaran DKI Jakarta dimana terdapat 3 macam penulisan nama
Kelurahan Pal Meriam, antara lain: “Pal Meriam”, “Pal meriam” dan “PAL Meriam” (lihat
kolom Values in Cluster).



Pengguna dapat menentukan nilai data yang paling tepat untuk menyelesaikan
inkonsistensi tersebut dengan mengisinya di kolom New Cell Value.



Lakukan inspeksi secara berulang untuk nilai-nilai data lainnya. Akhiri dengan memilih
tombol Merge Selected & Close untuk mengaplikasikan semua perubahan ke dataset.

Pengelompokan Ulang Data
Kasus ini sering kali ditemui di dalam dataset yang tidak memiliki standar klasifikasi data.
Akibatnya nama-nama pengelompokannya sangat bervariasi dan berjumlah sangat banyak.
Variasinya dapat mengandung arti yang sama yang menyebabkan pengelompokan data menjadi
tidak efisien dan pencacahan data tidak maksimal.

8

Gambar di atas memperlihatkan variasi pengisian data “korsleting listrik” sebagai penyebab
kebakaran. Akibat kurangnya standarisasi, pengisian ini memiliki banyak nama yang membuat
pengelompokan data menjadi tidak efisien.
Untuk menyelesaikan masalah ini dapat digunakan fungsi Text Facet. Berikut adalah langkahlangkah untuk membuat Text Facet:


Pilih Facet diikuti oleh Text Facet di kolom yang ingin diperiksa.



Secara otomatis OpenRefine akan mempopulasikan semua variasi nilai data di kolom
tersebut berikut jumlah datanya.



Untuk menyunting data, pilih edit dan masukkan nilai baru yang dikehendaki.



Lakukan inspeksi secara menyeluruh untuk melihat variasi-variasi data lainnya yang
sekiranya dapat disatukan.

Penulisan Angka Tidak Baku

9

Sering kali juga ditemui penyajian informasi numerik mengandung pemakaian tanda finansial
(seperti simbol mata uang dan pemisah ribuan) dan pemakaian tanda desimal. Untuk
memperbaikinya secara serentak di sebuah kolom dapat menggunakan fungsi Transform.


Pilih Edit cells diikuti oleh Transform... di kolom yang ingin dibuat perbaikan.



Kotak dialog transformasi akan muncul dimana perintah transformasi dapat diberikan
untuk mengubah isian nilai data secara serentak.

Berikut adalah beberapa perintah yang umum dipakai untuk membersihkan data numerik:
Nama Perintah

Deskripsi

Contoh Penggunaan

Hilangkan penanda
ribuan dan desimal

Membuat tanda titik dan koma hilang dari
teks

replaceChars(value, “.,”, “”)

Hilangkan simbol
mata uang

Membuat simbol ‘Rp’ hilang dari teks

replace(value, “Rp”, “”)

Hilangkan kelompok
ribuan

Membuat kata ‘juta’ hilang dari teks

replace(value, “juta”, “”)

10

3.

Visualisasi Data Menggunakan Tableau Public

Mengenai Tableau Public


Tableau Public adalah sebuah software gratis untuk visualisasi data di internet.



Setiap pengguna Tableau Public diwajibkan mempunyai akun Tableau Public.



Semua hasil visualisasi yang dibuat dengan Tableau Public akan dimuat secara publik di
internet.

Membuka Data


Pilih Jenis data yang akan dibuka. Pilih Text File untuk membuka berkas CSV, lalu pilih

berkas yang akan dibuka.



Tableau akan menampilkan tampilan pra-tayang data agar pengguna dapat
memeriksanya. Klik tombol Go to Worksheet untuk konfirmasi.

11

Lembar Kerja (Worksheet)

Berikut ini adalah nama-nama panel yang perlu diketahui di dalam aplikasi Tableau Public:




Data:


Menunjukan data yang sedang digunakan



Klik nama data untuk melihat penjabaran data.

Dimensions:


Menunjukan daftar attribut data yang bersifat qualitatif, umumnya attribut data
yang berfungsi sebagai kategori.



Klik-kanan pada nama atribut untuk merubah nama, merubah tipe data, dan
berbagai macam opsi lainnya.



Measures:


Menunjukan daftar attribut data yang bersifat quantitatif, umumnya attribut data
yang berfungsi sebagai tolak ukur.



Columns:




Rows:




Menunjukan attribut data terpilih yang di tampilkan sebagai baris.

Filters:




Menunjukan attribut data terpilih yang di tampilkan sebagai kolom

Menunjukan pilihan attribut yang digunakan untuk menyaring data.

Marks:

12



Menunjukan pilihan attribut yang digunakan untuk ditunjukan secara berbeda, baik
dalam bentuk, warna, atau ukuran.



Show Me:


Pilihan bentuk visualisasi yang memungkinkan berdasarkan attribut yang sedang



Gunakan tombol CTRL + Klik untuk memilih lebih dari satu attribut

dipilih dari daftar attribut dimension maupun measures.





Sheet:


Lembar kerja untuk membuat sebuah visualisasi.



Untuk membuat lembar kerja baru, tekan tombol

Dashboard:


Lembar kerja untuk menampilkan beberapa visualisasi.



Untuk membuat lembar kerja Dashboard baru, tekan tombol

Menyimpan dan Melihat Hasil Visualisasi


Tekan CTRL + S, lalu masukan alamat akun dan kata sandi untuk menyimpan hasil
visualisasi.



Hasil visualisasi dapat diakses melalui link yang diberikan dibawah kalimat ”Copy and
Paste link into your email message”.



Hasil visualisasi dapat juga disematkan di dalam website dengan menggunakan kode
dibawah kalimat ”Copy and Paste html code to embed the Viz in your website”

13