2017 Metopen Sesi 13 TS Validity Reliability Instrumen

Instrumen Penelitian,
Validitas dan Reliabilitas

Trisasi Lestari - 2015



Merancang INSTRUMEN PENELITIAN



instrument construction

An instrument is a
mechanism for measuring
phenomena, which is used
to gather and record
information for
assessment, decision
making, and ultimately
understanding.


Teori

Konsep
Definisi
Operasional
Instrumen
Penelitian

Komponen Instrumen
Judul

Pendahuluan: Mengapa, Bagaimana, Jenis informasi apa yang dibutuhkan, manfaat,
informed consent

Petunjuk pengisian
Pertanyaan
Pilihan jawaban/Isian
Keterangan tambahan
Closing


Memilih instrumen
Tergantung:
Tujuan penelitian
Rancangan penelitian
Objek yang diteliti
Methodologi pengumpulan data
Resources/Sumber daya

Faktor-faktor yg dipertimbangkan:
 Karakteristik populasi
 Literacy, physical/mental abilities, motivasi
 Informasi ttg populasi yg akan diteliti
 No telp, alamat
 Akses ke responden
 Lokasi, waktu, infrastructure yang ada (telephone, internet)
 Tujuan survey
 Kompleksitas pertanyaan, sensitifitas topik,
 Bentuk kuesioner yang akan diberikan
 Open-ended, close-ended

 Perkiraan response rate

Metode pengumpulan data
 Self-administered
 Individual, Surat
 Group
 Pooling
 Email/internet
 Observation
 Penilaian siswa untuk dosen
 Checklist
 Kombinasi format dan pendekatan
 Perilaku + Emosi
 Checklist+ fill the blank+rating scales

Questionnaire
 A self-contained and a self-administered instrument

for asking questions.


 Lack the personal touch
 Extremely efficient
 Most popular
 Good questionnaire  stands on its own

Risks
Low response rates
Bias

Responden bias, half-selection

Respondent honesty

over-report good things, and under-report bad things

Wording

end pregnancy vs abortion; poor vs welfare

Question Rules and bad examples

Clear in meaning and free of ambiguity
Apakah anda olahraga secara rutin?
Berapa nilai total kekayaan anda?

Use common everyday language, avoid jargons, abbreviations, or
acronyms
MDGs, Renstra, Angka kematian,

Use neutral language, avoid emotional, leading language
What do you find offensive about flag burning?
Why do you think hitting children is wrong?

Simple and easy

How do you rate police response time to
emergency and non-emergency calls?
How many cigarettes you smokes in a year?

Asks yourself


Does the questions answers my research question?
Is related questionnaire existed?
Do I need open-ended or close-ended questions?

Menulis pertanyaan
 Full script, ditulis lengkap
 Bermakna sama untuk semua responden
 Respondent bisa memahami jawabannya
 Disusun dengan baik
 Menghindari kata-kata sulit
 Menghindari kalimat negative
 Menanyakan dua atau lebih pertanyaan pada saat yang sama

 Menghindari kalimat panjang dan kompleks
 Menghindari kalimat yang mengandung asumsi
 Menghindari pertanyaan hipothetical
 Hindari pertanyaan yang responden tidak tahu

jawabannya


 Hindari pertanyaan tentang causality (sebab-akibat)
 Jika menyebutkan harus jelas dan eksplisit
 Jika diperlukan bisa menjelaskan istilah yang digunakan,

tetapi tidak di pertanyaan

 Dll (handout mp)

Contoh standar questionnaires


Generic instruments



COOP/WONCA charts: measure six core aspects of functional status: physical
fitness, feelings, daily activities, social activities, change in health and overall
health.
Sickness Impact Profile (SIP)/Functional Limitations Profile (FLP)




RAND SF 36



Duke Health Profile (DUKE)



EuroQol



MOS 20



Nottingham Health Profile




RAND General Health Perception Questionnaire (GHPQ)

 Dimension specific instruments
 Barthel Index

 Index of Independence in Activities of Daily Living
 Frenchay Activities Index

 General Health Questionnaire (GHQ)

 RAND Mental Health Inventory (MHI)
 McGill Pain Questionnaire (MPQ)

 Disease/condition specific instruments











State-Trait Anxiety Inventory (STAI)
Center for Epidemiologic Studies Depression Scale (CES-D)
Arthritis Impact Measurement Scale (AIMS)
Living with Asthma (AQ)
Chronic Respiratory Disease Questionnaire (CRDQ)
Asthma Quality of Life Questionnaire (AQLQ)
Diabetes Health Profile IDDM (DHP 1) and NIDDM (DHP2)
Diabetes Quality-of-Life measure (DQOL)
EORTC Quality of Life Questionnaire

Membuat isi kuesioner


Melakukan literature review




Gunakan sarana/kuesioner yang sudah ada



Brainstorming


Nominal Group Technique

Grup 5-6 orang
Fasilitator menjelaskan ide/masalah/tujuan
Setiap peserta memberikan ide tertulis dan dishare
Anggota grup lainnya tidak mengkritik, tapi bisa minta klarifikasi
Mengulang proses brainstorming sampai seluruh ide
terkumpulkan
 Setiap peserta mereview alternatif yang muncul
 Membuat rangking prioritas






Membuat isi kuesioner
 Snowballing / Pyramiding
 2  2+2  4+4  dst

 Delphi technique

 Mengumpulkan input content dan methodologi dari

expert melalui email/surat.
 Draft dibuat oleh peneliti dan dikirimkan kepada
ahli.
 Ahli memberikan komentar secara independen

Membuat isi kuesioner
 Questions Pool and Q-sort
 60-90 pertanyaan

 Print pertanyaan di kartu
 Acak kartu

 Buat kriteria rangking:

 most definitely include this item,
 include this item,

 possibly include this item, and

 definitely do not include this item.

Membuat isi kuesioner
 Concept Mapping
 Preparation.
 Generation.

 brainstorming, nominal group technique, to generate

statements describing activities related to the project.

 Structuring.

 sort the statements: Q-sort or other ranking process.

 Representation.

 create visual maps that reflect the relationship

between the sorted items.

 Interpretation.
 Utilization.

 Operationalizing Constructs

Pengukuran

 Pengukuran adalah suatu proses yang sistematik

dan berulang untuk menghitung atau
mengklasifikasikan objek atau kejadian dengan
menggunakan dimensi tertentu.

 Biasanya dicapai dengan penggunaan angka

(numerik values)

Tingkat pengukuran

Likert Scale
Rensis Likert
1903 1981

Agreement

Frequency

Importance

Likelihood

Sangat Setuju
Setuju
Ragu-ragu
Tidak Setuju
Sangat tidak setuju

Sangat penting
Penting
Agak penting
Tidak terlalu penting
Tidak penting

Sangat sering
Sering
Kadang-kadang
Jarang
Tidak pernah

Hampir selalu benar
Biasanya benar
Kadang-kadang benar
Biasanya tidak benar
Hampir selalu tidak benar

Analisis Skala Likert
 Likert Scale: is the sum of responses on several Likert

items

 Ordinal or Interval
 Deskriptif
 Median, Mode, Percentiles/quartiles, Display
Distribution (bar chart)
 Non-parametric test
 Chi-squared, Mann Whitney test, Wilcoxon signed-rank
test, Kruskal-Wallis test
 Modified binomial Likert Scale
 Chi-squared, Cochran-Q, McNemar test

Observation Checklist

Pretesting
 Initial Pretesting




Individual Interviews and Focus Groups
Review by Content Area Experts
Continue to Obtain Feedback and Revise the Project If
Necessary

 Pretesting during development






Read and Reread the Items and Read the Items Aloud
Review by Content Area Experts
Review by Instrument Construction Experts
Review by Individuals with Expertise in Writing
Review by Potential Users

Pilot testing
 Questions for experts
 Was each set of directions clear (that is, the general directions at the
beginning of the questionnaire and any subsequent directions
provided in the body of the instrument)?
 Were there any spelling or grammatical problems? Were any items
difficult to read due to sentence length, choice of words, or special
terminology?
 How did the reviewer interpret each item? What did each question
mean to them?
 Did the reviewer experience problems with the item format(s), or
does the reviewer have suggestions for alternative formats?
 Were the response alternatives appropriate to each item?

Pilot testing









What problems did the reviewer encounter as a result of the organization of
the instrument, such as how items fl owed?
On average, how long did it take to complete? What was the longest time
and what was the shortest time it took to complete the instrument?
For Web-based instruments, did the respondent encounter any problems
accessing the instrument from a computer or navigating the instrument
once it was accessed?
Did any of the reviewers express concern about the length of the
instrument, or did they report problems with fatigue due to the time it took
to complete?
What was the reviewer s overall reaction to the questionnaire?
Did they have any concerns about confi dentiality or how the questionnaire
would be used?
Did they have any other concerns?
What suggestions do they have for making the questionnaire or individual
items easier to understand and complete?

Pilot testing
 Obtain evidence of reliability.
 Establish evidence of face validity
 Obtain evidence of content validity
 Obtain evidence of criterion validity
 Obtain evidence of construct validity

Reliability
Validity

Generalisibility

Measurement

Validity and reliability

 Judul: mengukur kepuasan kerja
 Bagaimana tingkat kepuasan kerja Anda? Scala
 Faktor-faktor apa yang bisa mempengaruhi tingkat

kepuasan kerja Anda? Free listing, checklist,
kombinasi

 Apakah gaya komunikasi pimpinan mempengaruhi

kepuasan kerja. Ya Tidak

 Apakah besaran insentif mempengaruhi

Contoh penelitian: mengukur tinggi badan
rata-rata anak SD di DIY
 Yang diukur harus tinggi badan, BUKAN berat badan  Valid
 Alat ukurnya akan memberikan hasil yang sama meskipun

seseorang diukur tinggi badannya berulang-ulang  Reliable

 Hasil dari pengukuran tinggi anak SD di DIY ini diharapkan

bisa menggambarkan tinggi rata-rata anak SD di Jawa 
Generalisir

Validity
 Apakah kita mengukur apa yang ingin kita ukur?
 Konsep seringkali sulit diukur
 Misalnya:

 Konsep : Pengetahuan.

 Latent & Manifest Variable

Tipe Validity

Face Validity

Construct
validity

Content
validity/internal
validity

Criterion
validity

Predictive
validity

Multicultural
validity

Face Validity


Face validity is the degree to which an instrument appears to
be an appropriate measure for obtaining the desired
information, particularly from the perspective of a potential
respondent.



Responden diminta untuk menilai apakah instrumen
penelitian (misal kuesioner) valid menurut mereka



Apakah responden bisa menangkap maksud pertanyaan
sesuai yang dimaksud peneliti





Orang biasa
Expert

Contoh: kuesioner tentang gaya hidup sehat, pertanyaan:
seberapa sering Anda olahraga?  Face validity: Valid

Construct Validity
 Memastikan peneliti dgn responden memahami konstruk yang

sama


Safety, intelligence, leadership, cleanness

 Internal structure
 Related to the theoretical of knowledge
 Operationalization
 Terdiri dari :




Convergent validity : + contoh: depresi dan perasaan tidak berguna
Discriminant validity: - contoh: depresi dan perasaan bahagia
Harus dilaporkan keduanya

Convergent Validity

to show that
measures that should
be related are in
reality related

Discriminant Validity

to show that
measures that
should not be
related are in
reality not related

Perilaku
Pengetahuan

Sikap

Partisipasi
pasien

Content/internal validity
 the degree to which an instrument is representative of the

topic and process being investigated.

 Misalnya: Konsep: mengukur sikap murid terhadap guru
 Alat ukur sikap dg skala Likert

 Saya mendengarkan semua kata orang tua

 Guru saya selalu berusaha membantu saya

 Saya selalu mengucapkan salam setiap bertemu guru

 Literatur review : meningkatkan kemampuan peneliti untuk

mencapai content validity

 Apakah konten valid atau tidak dipengaruhi oleh:
 pengetahuan peneliti terhadap definisi konsep,
 teori tentang konsep yang ada, dan
 bagaimana konsep itu bekerja.
 Sample selection bias
 Information bias

 Statistical confounding

Criterion Validity
 making a comparison between a measure and an external

standard.

 Stroke recovery vs level of assistance required
 Score test individual
 Observasi aktifitas harian: mengikat tali sepatu, memakai baju,
menggosok gigi, merapikan tempat tidur, dll.
 Harus ditunjukkan pada instrumen untuk mengukur performa

atau kinerja

 Dibutuhkan:
 Pemahaman yang baik mengenai teori konsep yang diteliti
sehingga bisa ditentukan variable-variable lain berhubungan atau
diprediksi akan berhubungan dengan faktor

Predictive validity
Apakah alat ukur yang dibuat bisa memprediksi
outcomes.
Misal:
 apakah nilai tes TPA bisa memprediksi keberhasilan
siswa dalam mengikuti proses perkuliahan
 Apakah nilai TPA bisa memprediksi IPK akhir
mahasiswa
 Apakah tes psikologis untuk pegawai baru bisa
memprediksi seberapa loyal pegawai terhadap
perusahaan

Multicultural validity
 an instrument measures what it purports to

measure as understood by an audience of a
particular culture

 Caranya:

 Menggunakan bahasa yang dimengerti

 Memperhatikan nilai/norma/kebiasaan masyarakat

lokal

Mengukur validitas dengan
pendekatan qualitative
 Evaluative
 Literature review topik penelitian: memberikan

bukti bahwa instrumen akan mengukur konstruk
dan bukan lainnya.

 Expert reviews
 Table spesifikasi: identifikasi variabel topik/faktor
 Induktif/deduktif

Mengukur validitas dengan
pendekatan quantitative
 Mengukur kekuatan hubungan antara salah satu

pertanyaan dengan pertanyaan lain dalam konstruk
yang sama

 Item analysis
 Factor analysis

Pengukuran Validitas
 Item analysis

 To demonstrate a relationship between individual





items
Internal consistency reliability
1-2, 1-3, 1-4, 1-5, dst
2-3, 2-4, 2-5, 2-6, dst
Dst

 Further reading: The basics of item response theory

(Baker, 2001)

Difficulty & Discrimination index
 Tetapkan 10 subjek dg nilai terbaik dan 10 subject

dg nilai terburuk

 Jika subject ke-10 ada beberapa .pilih secara

random

 Hitung berapa banyak subject di kelompok nilai

terbaik dan nilai terburuk yang menjawab
pertanyaan 1 dg benar, pertanyaan 2 dg benar, dst

 Difficulty index: (RU+RL)/20
 Discrimination index: (RU-RL)/10

Name

Item 1

1

1

Difficulty Index: (8+4)/20 = 0.6

2

1

Discrimination index (8-4)/10= 0.4

3

1

Compare to the maximum discriminating index

4

0

Near maximum: very discriminating

5

1

Half the maximum: moderately discriminating

6

1

A quarter the maximum: weak item

7

0

Near zero : non-discriminating

8

1

Negative: bad item

9

1

10

1

RU=8

.
31

0

32

0

33

1

34

1

35

1

36

0

37

0

38

1

39

0

40

0

RL=4

Reliability
True Score

Systematic
Error

Random
Error

SCORE

True Score: yang ingin diukur
Systematic error: kesalahan yang selalu terjadi, misal alat ukur
tidak dikalibrasi, sehingga bukannya mengukur mulai dari 0 tapi
mulai dari 2
Random error: unpredictable error yang bisa terjadi karena
kebetulan atau memang benar-benar ada perubahan, misalnya
mood subject saat mengikuti ujian.

Sumber random error
 Subject reliability: respondent lelah, mood
 Observer reliability: kemampuan

observer/interviewer, background

 Situasional: kondisi saat pengukuran dilakukan

(interview dilakukan dirumah dan dikantor saat
sedang sibuk akan memberikan hasil yang berbeda)

 Instrument: wording yang kurang baik
 Data processing: salah koding, salah entry

Cara pengukuran Reliability
 Eyeballing : informal method,
 administer the instrument twice to the same group of people in a
relatively short period of time to see if their responses remain
the same
 Repeated measurement
1. Test-retest method
 When?
 Carry-over effects


 Too early: over-reliability
 Too late: under-reliability

How?

 Mengukur seberapa kuat hubungan score yang diukur pada 2

waktu yang berbeda dengan correlation coefficient
 Reliable if coefficient correlation >0.7

2. Proportion agreement

Inter-rater and Intra-rater Reliability
 Inter rater: >1 rater
 Intra-rater :1 rater
 Calculate with Cohen s Kappa

Kappa Statistic (Cohen, 1960)
1960)

OA - EA
k =
1 - EA



OA: Kesepakatan yang terjadi
EA: Kesepakatan yg tidak disengaja

A+D
OA =
N

é N1 ´ N 3 N 2 ´ N 4 ù
+
êë
N
N úû
EA =
N
-1 0.7

Cronbach s alpha

 Paling sering dipakai untuk mengukur internal consistency
 Diadaptasi oleh Cronbach (1951) dari Kuder&Richardson

(1937)

n 
Vi 

1 

n  1  Vtest 

n = jumlah pertanyaan
Vi = variance score pada setiap
pertanyaan
Vtest = total variance dari skor
total (not % s) on the entire test

Large Vtest  Small Ratio Vi/Vtest  high alpha



How alpha works
Vi = pi * (1-pi)

» pi = percentage of class who answers correctly
» This formula can be derived from the standard
definition of variance.

Vi varies from 0 to 0.25
pi

1-pi

Vi

0

1

0

0.25

0.75

0.1875

0.5

0.5

0.25

Bagaimana jika instrumen tidak reliable?
 Perhatikan jika ada salah satu item instrumen yang

salah

 Perhatikan seberapa kuat hubungan antara masing-

masing item pertanyaan dengan skor

 Item yang berkorelasi rendah dengan total skor

akan menurunkan reliabilitas dan sebaiknya
dihilangkan

 Pada metode test-retest, perhatikan pertanyaan

yang skor awal dan akhirnya berbeda jauh.

Bagaimana meningkatkan
reliabilitas?
 Pertanyaan tidak ambigu/jelas
 Pertanyaan spesifik
 Buat beberapa item pertanyaan untuk mengukur

satu variable

 Tetapi jangan terlalu banyak

Generalisability
 From sample to population
 Sample: true exist or just a coincidence

Hypothesis
Null hypothesis
(H0):
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS

Alternative
hypothesis (H1)
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS

Hasil penelitian

Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS

Kenyataan di
populasi

Interpretasi

Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS

Null hypothesis
ditolak

Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS

Type 1 error
Implikasi:
Kegiatan UKS
diperbanyak

Hypothesis
Null hypothesis
(H0):
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS

Alternative
hypothesis (H1)
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS

Hasil penelitian

Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS

Kenyataan di
populasi

Interpretasi

Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS

Null hypothesis
diterima

Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS

Type 2 error
Implikasi:
menghapuskan
kegiatan uks

?

Berapa besar kemungkinan type 1 error?
 Diukur dengan level of significance / p-values

/coefficient alpha

 Semakin kecil coefficient alpha, semakin kecil

kemungkinannya terjadi type 1 error

 Cut-off point yg sering dipakai p