2017 Metopen Sesi 13 TS Validity Reliability Instrumen
Instrumen Penelitian,
Validitas dan Reliabilitas
Trisasi Lestari - 2015
Merancang INSTRUMEN PENELITIAN
instrument construction
An instrument is a
mechanism for measuring
phenomena, which is used
to gather and record
information for
assessment, decision
making, and ultimately
understanding.
Teori
Konsep
Definisi
Operasional
Instrumen
Penelitian
Komponen Instrumen
Judul
Pendahuluan: Mengapa, Bagaimana, Jenis informasi apa yang dibutuhkan, manfaat,
informed consent
Petunjuk pengisian
Pertanyaan
Pilihan jawaban/Isian
Keterangan tambahan
Closing
Memilih instrumen
Tergantung:
Tujuan penelitian
Rancangan penelitian
Objek yang diteliti
Methodologi pengumpulan data
Resources/Sumber daya
Faktor-faktor yg dipertimbangkan:
Karakteristik populasi
Literacy, physical/mental abilities, motivasi
Informasi ttg populasi yg akan diteliti
No telp, alamat
Akses ke responden
Lokasi, waktu, infrastructure yang ada (telephone, internet)
Tujuan survey
Kompleksitas pertanyaan, sensitifitas topik,
Bentuk kuesioner yang akan diberikan
Open-ended, close-ended
Perkiraan response rate
Metode pengumpulan data
Self-administered
Individual, Surat
Group
Pooling
Email/internet
Observation
Penilaian siswa untuk dosen
Checklist
Kombinasi format dan pendekatan
Perilaku + Emosi
Checklist+ fill the blank+rating scales
Questionnaire
A self-contained and a self-administered instrument
for asking questions.
Lack the personal touch
Extremely efficient
Most popular
Good questionnaire stands on its own
Risks
Low response rates
Bias
Responden bias, half-selection
Respondent honesty
over-report good things, and under-report bad things
Wording
end pregnancy vs abortion; poor vs welfare
Question Rules and bad examples
Clear in meaning and free of ambiguity
Apakah anda olahraga secara rutin?
Berapa nilai total kekayaan anda?
Use common everyday language, avoid jargons, abbreviations, or
acronyms
MDGs, Renstra, Angka kematian,
Use neutral language, avoid emotional, leading language
What do you find offensive about flag burning?
Why do you think hitting children is wrong?
Simple and easy
How do you rate police response time to
emergency and non-emergency calls?
How many cigarettes you smokes in a year?
Asks yourself
Does the questions answers my research question?
Is related questionnaire existed?
Do I need open-ended or close-ended questions?
Menulis pertanyaan
Full script, ditulis lengkap
Bermakna sama untuk semua responden
Respondent bisa memahami jawabannya
Disusun dengan baik
Menghindari kata-kata sulit
Menghindari kalimat negative
Menanyakan dua atau lebih pertanyaan pada saat yang sama
Menghindari kalimat panjang dan kompleks
Menghindari kalimat yang mengandung asumsi
Menghindari pertanyaan hipothetical
Hindari pertanyaan yang responden tidak tahu
jawabannya
Hindari pertanyaan tentang causality (sebab-akibat)
Jika menyebutkan harus jelas dan eksplisit
Jika diperlukan bisa menjelaskan istilah yang digunakan,
tetapi tidak di pertanyaan
Dll (handout mp)
Contoh standar questionnaires
Generic instruments
COOP/WONCA charts: measure six core aspects of functional status: physical
fitness, feelings, daily activities, social activities, change in health and overall
health.
Sickness Impact Profile (SIP)/Functional Limitations Profile (FLP)
RAND SF 36
Duke Health Profile (DUKE)
EuroQol
MOS 20
Nottingham Health Profile
RAND General Health Perception Questionnaire (GHPQ)
Dimension specific instruments
Barthel Index
Index of Independence in Activities of Daily Living
Frenchay Activities Index
General Health Questionnaire (GHQ)
RAND Mental Health Inventory (MHI)
McGill Pain Questionnaire (MPQ)
Disease/condition specific instruments
State-Trait Anxiety Inventory (STAI)
Center for Epidemiologic Studies Depression Scale (CES-D)
Arthritis Impact Measurement Scale (AIMS)
Living with Asthma (AQ)
Chronic Respiratory Disease Questionnaire (CRDQ)
Asthma Quality of Life Questionnaire (AQLQ)
Diabetes Health Profile IDDM (DHP 1) and NIDDM (DHP2)
Diabetes Quality-of-Life measure (DQOL)
EORTC Quality of Life Questionnaire
Membuat isi kuesioner
Melakukan literature review
Gunakan sarana/kuesioner yang sudah ada
Brainstorming
Nominal Group Technique
Grup 5-6 orang
Fasilitator menjelaskan ide/masalah/tujuan
Setiap peserta memberikan ide tertulis dan dishare
Anggota grup lainnya tidak mengkritik, tapi bisa minta klarifikasi
Mengulang proses brainstorming sampai seluruh ide
terkumpulkan
Setiap peserta mereview alternatif yang muncul
Membuat rangking prioritas
Membuat isi kuesioner
Snowballing / Pyramiding
2 2+2 4+4 dst
Delphi technique
Mengumpulkan input content dan methodologi dari
expert melalui email/surat.
Draft dibuat oleh peneliti dan dikirimkan kepada
ahli.
Ahli memberikan komentar secara independen
Membuat isi kuesioner
Questions Pool and Q-sort
60-90 pertanyaan
Print pertanyaan di kartu
Acak kartu
Buat kriteria rangking:
most definitely include this item,
include this item,
possibly include this item, and
definitely do not include this item.
Membuat isi kuesioner
Concept Mapping
Preparation.
Generation.
brainstorming, nominal group technique, to generate
statements describing activities related to the project.
Structuring.
sort the statements: Q-sort or other ranking process.
Representation.
create visual maps that reflect the relationship
between the sorted items.
Interpretation.
Utilization.
Operationalizing Constructs
Pengukuran
Pengukuran adalah suatu proses yang sistematik
dan berulang untuk menghitung atau
mengklasifikasikan objek atau kejadian dengan
menggunakan dimensi tertentu.
Biasanya dicapai dengan penggunaan angka
(numerik values)
Tingkat pengukuran
Likert Scale
Rensis Likert
1903 1981
Agreement
Frequency
Importance
Likelihood
Sangat Setuju
Setuju
Ragu-ragu
Tidak Setuju
Sangat tidak setuju
Sangat penting
Penting
Agak penting
Tidak terlalu penting
Tidak penting
Sangat sering
Sering
Kadang-kadang
Jarang
Tidak pernah
Hampir selalu benar
Biasanya benar
Kadang-kadang benar
Biasanya tidak benar
Hampir selalu tidak benar
Analisis Skala Likert
Likert Scale: is the sum of responses on several Likert
items
Ordinal or Interval
Deskriptif
Median, Mode, Percentiles/quartiles, Display
Distribution (bar chart)
Non-parametric test
Chi-squared, Mann Whitney test, Wilcoxon signed-rank
test, Kruskal-Wallis test
Modified binomial Likert Scale
Chi-squared, Cochran-Q, McNemar test
Observation Checklist
Pretesting
Initial Pretesting
Individual Interviews and Focus Groups
Review by Content Area Experts
Continue to Obtain Feedback and Revise the Project If
Necessary
Pretesting during development
Read and Reread the Items and Read the Items Aloud
Review by Content Area Experts
Review by Instrument Construction Experts
Review by Individuals with Expertise in Writing
Review by Potential Users
Pilot testing
Questions for experts
Was each set of directions clear (that is, the general directions at the
beginning of the questionnaire and any subsequent directions
provided in the body of the instrument)?
Were there any spelling or grammatical problems? Were any items
difficult to read due to sentence length, choice of words, or special
terminology?
How did the reviewer interpret each item? What did each question
mean to them?
Did the reviewer experience problems with the item format(s), or
does the reviewer have suggestions for alternative formats?
Were the response alternatives appropriate to each item?
Pilot testing
What problems did the reviewer encounter as a result of the organization of
the instrument, such as how items fl owed?
On average, how long did it take to complete? What was the longest time
and what was the shortest time it took to complete the instrument?
For Web-based instruments, did the respondent encounter any problems
accessing the instrument from a computer or navigating the instrument
once it was accessed?
Did any of the reviewers express concern about the length of the
instrument, or did they report problems with fatigue due to the time it took
to complete?
What was the reviewer s overall reaction to the questionnaire?
Did they have any concerns about confi dentiality or how the questionnaire
would be used?
Did they have any other concerns?
What suggestions do they have for making the questionnaire or individual
items easier to understand and complete?
Pilot testing
Obtain evidence of reliability.
Establish evidence of face validity
Obtain evidence of content validity
Obtain evidence of criterion validity
Obtain evidence of construct validity
Reliability
Validity
Generalisibility
Measurement
Validity and reliability
Judul: mengukur kepuasan kerja
Bagaimana tingkat kepuasan kerja Anda? Scala
Faktor-faktor apa yang bisa mempengaruhi tingkat
kepuasan kerja Anda? Free listing, checklist,
kombinasi
Apakah gaya komunikasi pimpinan mempengaruhi
kepuasan kerja. Ya Tidak
Apakah besaran insentif mempengaruhi
Contoh penelitian: mengukur tinggi badan
rata-rata anak SD di DIY
Yang diukur harus tinggi badan, BUKAN berat badan Valid
Alat ukurnya akan memberikan hasil yang sama meskipun
seseorang diukur tinggi badannya berulang-ulang Reliable
Hasil dari pengukuran tinggi anak SD di DIY ini diharapkan
bisa menggambarkan tinggi rata-rata anak SD di Jawa
Generalisir
Validity
Apakah kita mengukur apa yang ingin kita ukur?
Konsep seringkali sulit diukur
Misalnya:
Konsep : Pengetahuan.
Latent & Manifest Variable
Tipe Validity
Face Validity
Construct
validity
Content
validity/internal
validity
Criterion
validity
Predictive
validity
Multicultural
validity
Face Validity
Face validity is the degree to which an instrument appears to
be an appropriate measure for obtaining the desired
information, particularly from the perspective of a potential
respondent.
Responden diminta untuk menilai apakah instrumen
penelitian (misal kuesioner) valid menurut mereka
Apakah responden bisa menangkap maksud pertanyaan
sesuai yang dimaksud peneliti
Orang biasa
Expert
Contoh: kuesioner tentang gaya hidup sehat, pertanyaan:
seberapa sering Anda olahraga? Face validity: Valid
Construct Validity
Memastikan peneliti dgn responden memahami konstruk yang
sama
Safety, intelligence, leadership, cleanness
Internal structure
Related to the theoretical of knowledge
Operationalization
Terdiri dari :
Convergent validity : + contoh: depresi dan perasaan tidak berguna
Discriminant validity: - contoh: depresi dan perasaan bahagia
Harus dilaporkan keduanya
Convergent Validity
to show that
measures that should
be related are in
reality related
Discriminant Validity
to show that
measures that
should not be
related are in
reality not related
Perilaku
Pengetahuan
Sikap
Partisipasi
pasien
Content/internal validity
the degree to which an instrument is representative of the
topic and process being investigated.
Misalnya: Konsep: mengukur sikap murid terhadap guru
Alat ukur sikap dg skala Likert
Saya mendengarkan semua kata orang tua
Guru saya selalu berusaha membantu saya
Saya selalu mengucapkan salam setiap bertemu guru
Literatur review : meningkatkan kemampuan peneliti untuk
mencapai content validity
Apakah konten valid atau tidak dipengaruhi oleh:
pengetahuan peneliti terhadap definisi konsep,
teori tentang konsep yang ada, dan
bagaimana konsep itu bekerja.
Sample selection bias
Information bias
Statistical confounding
Criterion Validity
making a comparison between a measure and an external
standard.
Stroke recovery vs level of assistance required
Score test individual
Observasi aktifitas harian: mengikat tali sepatu, memakai baju,
menggosok gigi, merapikan tempat tidur, dll.
Harus ditunjukkan pada instrumen untuk mengukur performa
atau kinerja
Dibutuhkan:
Pemahaman yang baik mengenai teori konsep yang diteliti
sehingga bisa ditentukan variable-variable lain berhubungan atau
diprediksi akan berhubungan dengan faktor
Predictive validity
Apakah alat ukur yang dibuat bisa memprediksi
outcomes.
Misal:
apakah nilai tes TPA bisa memprediksi keberhasilan
siswa dalam mengikuti proses perkuliahan
Apakah nilai TPA bisa memprediksi IPK akhir
mahasiswa
Apakah tes psikologis untuk pegawai baru bisa
memprediksi seberapa loyal pegawai terhadap
perusahaan
Multicultural validity
an instrument measures what it purports to
measure as understood by an audience of a
particular culture
Caranya:
Menggunakan bahasa yang dimengerti
Memperhatikan nilai/norma/kebiasaan masyarakat
lokal
Mengukur validitas dengan
pendekatan qualitative
Evaluative
Literature review topik penelitian: memberikan
bukti bahwa instrumen akan mengukur konstruk
dan bukan lainnya.
Expert reviews
Table spesifikasi: identifikasi variabel topik/faktor
Induktif/deduktif
Mengukur validitas dengan
pendekatan quantitative
Mengukur kekuatan hubungan antara salah satu
pertanyaan dengan pertanyaan lain dalam konstruk
yang sama
Item analysis
Factor analysis
Pengukuran Validitas
Item analysis
To demonstrate a relationship between individual
items
Internal consistency reliability
1-2, 1-3, 1-4, 1-5, dst
2-3, 2-4, 2-5, 2-6, dst
Dst
Further reading: The basics of item response theory
(Baker, 2001)
Difficulty & Discrimination index
Tetapkan 10 subjek dg nilai terbaik dan 10 subject
dg nilai terburuk
Jika subject ke-10 ada beberapa .pilih secara
random
Hitung berapa banyak subject di kelompok nilai
terbaik dan nilai terburuk yang menjawab
pertanyaan 1 dg benar, pertanyaan 2 dg benar, dst
Difficulty index: (RU+RL)/20
Discrimination index: (RU-RL)/10
Name
Item 1
1
1
Difficulty Index: (8+4)/20 = 0.6
2
1
Discrimination index (8-4)/10= 0.4
3
1
Compare to the maximum discriminating index
4
0
Near maximum: very discriminating
5
1
Half the maximum: moderately discriminating
6
1
A quarter the maximum: weak item
7
0
Near zero : non-discriminating
8
1
Negative: bad item
9
1
10
1
RU=8
.
31
0
32
0
33
1
34
1
35
1
36
0
37
0
38
1
39
0
40
0
RL=4
Reliability
True Score
Systematic
Error
Random
Error
SCORE
True Score: yang ingin diukur
Systematic error: kesalahan yang selalu terjadi, misal alat ukur
tidak dikalibrasi, sehingga bukannya mengukur mulai dari 0 tapi
mulai dari 2
Random error: unpredictable error yang bisa terjadi karena
kebetulan atau memang benar-benar ada perubahan, misalnya
mood subject saat mengikuti ujian.
Sumber random error
Subject reliability: respondent lelah, mood
Observer reliability: kemampuan
observer/interviewer, background
Situasional: kondisi saat pengukuran dilakukan
(interview dilakukan dirumah dan dikantor saat
sedang sibuk akan memberikan hasil yang berbeda)
Instrument: wording yang kurang baik
Data processing: salah koding, salah entry
Cara pengukuran Reliability
Eyeballing : informal method,
administer the instrument twice to the same group of people in a
relatively short period of time to see if their responses remain
the same
Repeated measurement
1. Test-retest method
When?
Carry-over effects
Too early: over-reliability
Too late: under-reliability
How?
Mengukur seberapa kuat hubungan score yang diukur pada 2
waktu yang berbeda dengan correlation coefficient
Reliable if coefficient correlation >0.7
2. Proportion agreement
Inter-rater and Intra-rater Reliability
Inter rater: >1 rater
Intra-rater :1 rater
Calculate with Cohen s Kappa
Kappa Statistic (Cohen, 1960)
1960)
OA - EA
k =
1 - EA
OA: Kesepakatan yang terjadi
EA: Kesepakatan yg tidak disengaja
A+D
OA =
N
é N1 ´ N 3 N 2 ´ N 4 ù
+
êë
N
N úû
EA =
N
-1 0.7
Cronbach s alpha
Paling sering dipakai untuk mengukur internal consistency
Diadaptasi oleh Cronbach (1951) dari Kuder&Richardson
(1937)
n
Vi
1
n 1 Vtest
n = jumlah pertanyaan
Vi = variance score pada setiap
pertanyaan
Vtest = total variance dari skor
total (not % s) on the entire test
Large Vtest Small Ratio Vi/Vtest high alpha
How alpha works
Vi = pi * (1-pi)
» pi = percentage of class who answers correctly
» This formula can be derived from the standard
definition of variance.
Vi varies from 0 to 0.25
pi
1-pi
Vi
0
1
0
0.25
0.75
0.1875
0.5
0.5
0.25
Bagaimana jika instrumen tidak reliable?
Perhatikan jika ada salah satu item instrumen yang
salah
Perhatikan seberapa kuat hubungan antara masing-
masing item pertanyaan dengan skor
Item yang berkorelasi rendah dengan total skor
akan menurunkan reliabilitas dan sebaiknya
dihilangkan
Pada metode test-retest, perhatikan pertanyaan
yang skor awal dan akhirnya berbeda jauh.
Bagaimana meningkatkan
reliabilitas?
Pertanyaan tidak ambigu/jelas
Pertanyaan spesifik
Buat beberapa item pertanyaan untuk mengukur
satu variable
Tetapi jangan terlalu banyak
Generalisability
From sample to population
Sample: true exist or just a coincidence
Hypothesis
Null hypothesis
(H0):
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Alternative
hypothesis (H1)
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Hasil penelitian
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Kenyataan di
populasi
Interpretasi
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Null hypothesis
ditolak
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Type 1 error
Implikasi:
Kegiatan UKS
diperbanyak
Hypothesis
Null hypothesis
(H0):
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Alternative
hypothesis (H1)
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Hasil penelitian
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Kenyataan di
populasi
Interpretasi
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Null hypothesis
diterima
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Type 2 error
Implikasi:
menghapuskan
kegiatan uks
?
Berapa besar kemungkinan type 1 error?
Diukur dengan level of significance / p-values
/coefficient alpha
Semakin kecil coefficient alpha, semakin kecil
kemungkinannya terjadi type 1 error
Cut-off point yg sering dipakai p
Validitas dan Reliabilitas
Trisasi Lestari - 2015
Merancang INSTRUMEN PENELITIAN
instrument construction
An instrument is a
mechanism for measuring
phenomena, which is used
to gather and record
information for
assessment, decision
making, and ultimately
understanding.
Teori
Konsep
Definisi
Operasional
Instrumen
Penelitian
Komponen Instrumen
Judul
Pendahuluan: Mengapa, Bagaimana, Jenis informasi apa yang dibutuhkan, manfaat,
informed consent
Petunjuk pengisian
Pertanyaan
Pilihan jawaban/Isian
Keterangan tambahan
Closing
Memilih instrumen
Tergantung:
Tujuan penelitian
Rancangan penelitian
Objek yang diteliti
Methodologi pengumpulan data
Resources/Sumber daya
Faktor-faktor yg dipertimbangkan:
Karakteristik populasi
Literacy, physical/mental abilities, motivasi
Informasi ttg populasi yg akan diteliti
No telp, alamat
Akses ke responden
Lokasi, waktu, infrastructure yang ada (telephone, internet)
Tujuan survey
Kompleksitas pertanyaan, sensitifitas topik,
Bentuk kuesioner yang akan diberikan
Open-ended, close-ended
Perkiraan response rate
Metode pengumpulan data
Self-administered
Individual, Surat
Group
Pooling
Email/internet
Observation
Penilaian siswa untuk dosen
Checklist
Kombinasi format dan pendekatan
Perilaku + Emosi
Checklist+ fill the blank+rating scales
Questionnaire
A self-contained and a self-administered instrument
for asking questions.
Lack the personal touch
Extremely efficient
Most popular
Good questionnaire stands on its own
Risks
Low response rates
Bias
Responden bias, half-selection
Respondent honesty
over-report good things, and under-report bad things
Wording
end pregnancy vs abortion; poor vs welfare
Question Rules and bad examples
Clear in meaning and free of ambiguity
Apakah anda olahraga secara rutin?
Berapa nilai total kekayaan anda?
Use common everyday language, avoid jargons, abbreviations, or
acronyms
MDGs, Renstra, Angka kematian,
Use neutral language, avoid emotional, leading language
What do you find offensive about flag burning?
Why do you think hitting children is wrong?
Simple and easy
How do you rate police response time to
emergency and non-emergency calls?
How many cigarettes you smokes in a year?
Asks yourself
Does the questions answers my research question?
Is related questionnaire existed?
Do I need open-ended or close-ended questions?
Menulis pertanyaan
Full script, ditulis lengkap
Bermakna sama untuk semua responden
Respondent bisa memahami jawabannya
Disusun dengan baik
Menghindari kata-kata sulit
Menghindari kalimat negative
Menanyakan dua atau lebih pertanyaan pada saat yang sama
Menghindari kalimat panjang dan kompleks
Menghindari kalimat yang mengandung asumsi
Menghindari pertanyaan hipothetical
Hindari pertanyaan yang responden tidak tahu
jawabannya
Hindari pertanyaan tentang causality (sebab-akibat)
Jika menyebutkan harus jelas dan eksplisit
Jika diperlukan bisa menjelaskan istilah yang digunakan,
tetapi tidak di pertanyaan
Dll (handout mp)
Contoh standar questionnaires
Generic instruments
COOP/WONCA charts: measure six core aspects of functional status: physical
fitness, feelings, daily activities, social activities, change in health and overall
health.
Sickness Impact Profile (SIP)/Functional Limitations Profile (FLP)
RAND SF 36
Duke Health Profile (DUKE)
EuroQol
MOS 20
Nottingham Health Profile
RAND General Health Perception Questionnaire (GHPQ)
Dimension specific instruments
Barthel Index
Index of Independence in Activities of Daily Living
Frenchay Activities Index
General Health Questionnaire (GHQ)
RAND Mental Health Inventory (MHI)
McGill Pain Questionnaire (MPQ)
Disease/condition specific instruments
State-Trait Anxiety Inventory (STAI)
Center for Epidemiologic Studies Depression Scale (CES-D)
Arthritis Impact Measurement Scale (AIMS)
Living with Asthma (AQ)
Chronic Respiratory Disease Questionnaire (CRDQ)
Asthma Quality of Life Questionnaire (AQLQ)
Diabetes Health Profile IDDM (DHP 1) and NIDDM (DHP2)
Diabetes Quality-of-Life measure (DQOL)
EORTC Quality of Life Questionnaire
Membuat isi kuesioner
Melakukan literature review
Gunakan sarana/kuesioner yang sudah ada
Brainstorming
Nominal Group Technique
Grup 5-6 orang
Fasilitator menjelaskan ide/masalah/tujuan
Setiap peserta memberikan ide tertulis dan dishare
Anggota grup lainnya tidak mengkritik, tapi bisa minta klarifikasi
Mengulang proses brainstorming sampai seluruh ide
terkumpulkan
Setiap peserta mereview alternatif yang muncul
Membuat rangking prioritas
Membuat isi kuesioner
Snowballing / Pyramiding
2 2+2 4+4 dst
Delphi technique
Mengumpulkan input content dan methodologi dari
expert melalui email/surat.
Draft dibuat oleh peneliti dan dikirimkan kepada
ahli.
Ahli memberikan komentar secara independen
Membuat isi kuesioner
Questions Pool and Q-sort
60-90 pertanyaan
Print pertanyaan di kartu
Acak kartu
Buat kriteria rangking:
most definitely include this item,
include this item,
possibly include this item, and
definitely do not include this item.
Membuat isi kuesioner
Concept Mapping
Preparation.
Generation.
brainstorming, nominal group technique, to generate
statements describing activities related to the project.
Structuring.
sort the statements: Q-sort or other ranking process.
Representation.
create visual maps that reflect the relationship
between the sorted items.
Interpretation.
Utilization.
Operationalizing Constructs
Pengukuran
Pengukuran adalah suatu proses yang sistematik
dan berulang untuk menghitung atau
mengklasifikasikan objek atau kejadian dengan
menggunakan dimensi tertentu.
Biasanya dicapai dengan penggunaan angka
(numerik values)
Tingkat pengukuran
Likert Scale
Rensis Likert
1903 1981
Agreement
Frequency
Importance
Likelihood
Sangat Setuju
Setuju
Ragu-ragu
Tidak Setuju
Sangat tidak setuju
Sangat penting
Penting
Agak penting
Tidak terlalu penting
Tidak penting
Sangat sering
Sering
Kadang-kadang
Jarang
Tidak pernah
Hampir selalu benar
Biasanya benar
Kadang-kadang benar
Biasanya tidak benar
Hampir selalu tidak benar
Analisis Skala Likert
Likert Scale: is the sum of responses on several Likert
items
Ordinal or Interval
Deskriptif
Median, Mode, Percentiles/quartiles, Display
Distribution (bar chart)
Non-parametric test
Chi-squared, Mann Whitney test, Wilcoxon signed-rank
test, Kruskal-Wallis test
Modified binomial Likert Scale
Chi-squared, Cochran-Q, McNemar test
Observation Checklist
Pretesting
Initial Pretesting
Individual Interviews and Focus Groups
Review by Content Area Experts
Continue to Obtain Feedback and Revise the Project If
Necessary
Pretesting during development
Read and Reread the Items and Read the Items Aloud
Review by Content Area Experts
Review by Instrument Construction Experts
Review by Individuals with Expertise in Writing
Review by Potential Users
Pilot testing
Questions for experts
Was each set of directions clear (that is, the general directions at the
beginning of the questionnaire and any subsequent directions
provided in the body of the instrument)?
Were there any spelling or grammatical problems? Were any items
difficult to read due to sentence length, choice of words, or special
terminology?
How did the reviewer interpret each item? What did each question
mean to them?
Did the reviewer experience problems with the item format(s), or
does the reviewer have suggestions for alternative formats?
Were the response alternatives appropriate to each item?
Pilot testing
What problems did the reviewer encounter as a result of the organization of
the instrument, such as how items fl owed?
On average, how long did it take to complete? What was the longest time
and what was the shortest time it took to complete the instrument?
For Web-based instruments, did the respondent encounter any problems
accessing the instrument from a computer or navigating the instrument
once it was accessed?
Did any of the reviewers express concern about the length of the
instrument, or did they report problems with fatigue due to the time it took
to complete?
What was the reviewer s overall reaction to the questionnaire?
Did they have any concerns about confi dentiality or how the questionnaire
would be used?
Did they have any other concerns?
What suggestions do they have for making the questionnaire or individual
items easier to understand and complete?
Pilot testing
Obtain evidence of reliability.
Establish evidence of face validity
Obtain evidence of content validity
Obtain evidence of criterion validity
Obtain evidence of construct validity
Reliability
Validity
Generalisibility
Measurement
Validity and reliability
Judul: mengukur kepuasan kerja
Bagaimana tingkat kepuasan kerja Anda? Scala
Faktor-faktor apa yang bisa mempengaruhi tingkat
kepuasan kerja Anda? Free listing, checklist,
kombinasi
Apakah gaya komunikasi pimpinan mempengaruhi
kepuasan kerja. Ya Tidak
Apakah besaran insentif mempengaruhi
Contoh penelitian: mengukur tinggi badan
rata-rata anak SD di DIY
Yang diukur harus tinggi badan, BUKAN berat badan Valid
Alat ukurnya akan memberikan hasil yang sama meskipun
seseorang diukur tinggi badannya berulang-ulang Reliable
Hasil dari pengukuran tinggi anak SD di DIY ini diharapkan
bisa menggambarkan tinggi rata-rata anak SD di Jawa
Generalisir
Validity
Apakah kita mengukur apa yang ingin kita ukur?
Konsep seringkali sulit diukur
Misalnya:
Konsep : Pengetahuan.
Latent & Manifest Variable
Tipe Validity
Face Validity
Construct
validity
Content
validity/internal
validity
Criterion
validity
Predictive
validity
Multicultural
validity
Face Validity
Face validity is the degree to which an instrument appears to
be an appropriate measure for obtaining the desired
information, particularly from the perspective of a potential
respondent.
Responden diminta untuk menilai apakah instrumen
penelitian (misal kuesioner) valid menurut mereka
Apakah responden bisa menangkap maksud pertanyaan
sesuai yang dimaksud peneliti
Orang biasa
Expert
Contoh: kuesioner tentang gaya hidup sehat, pertanyaan:
seberapa sering Anda olahraga? Face validity: Valid
Construct Validity
Memastikan peneliti dgn responden memahami konstruk yang
sama
Safety, intelligence, leadership, cleanness
Internal structure
Related to the theoretical of knowledge
Operationalization
Terdiri dari :
Convergent validity : + contoh: depresi dan perasaan tidak berguna
Discriminant validity: - contoh: depresi dan perasaan bahagia
Harus dilaporkan keduanya
Convergent Validity
to show that
measures that should
be related are in
reality related
Discriminant Validity
to show that
measures that
should not be
related are in
reality not related
Perilaku
Pengetahuan
Sikap
Partisipasi
pasien
Content/internal validity
the degree to which an instrument is representative of the
topic and process being investigated.
Misalnya: Konsep: mengukur sikap murid terhadap guru
Alat ukur sikap dg skala Likert
Saya mendengarkan semua kata orang tua
Guru saya selalu berusaha membantu saya
Saya selalu mengucapkan salam setiap bertemu guru
Literatur review : meningkatkan kemampuan peneliti untuk
mencapai content validity
Apakah konten valid atau tidak dipengaruhi oleh:
pengetahuan peneliti terhadap definisi konsep,
teori tentang konsep yang ada, dan
bagaimana konsep itu bekerja.
Sample selection bias
Information bias
Statistical confounding
Criterion Validity
making a comparison between a measure and an external
standard.
Stroke recovery vs level of assistance required
Score test individual
Observasi aktifitas harian: mengikat tali sepatu, memakai baju,
menggosok gigi, merapikan tempat tidur, dll.
Harus ditunjukkan pada instrumen untuk mengukur performa
atau kinerja
Dibutuhkan:
Pemahaman yang baik mengenai teori konsep yang diteliti
sehingga bisa ditentukan variable-variable lain berhubungan atau
diprediksi akan berhubungan dengan faktor
Predictive validity
Apakah alat ukur yang dibuat bisa memprediksi
outcomes.
Misal:
apakah nilai tes TPA bisa memprediksi keberhasilan
siswa dalam mengikuti proses perkuliahan
Apakah nilai TPA bisa memprediksi IPK akhir
mahasiswa
Apakah tes psikologis untuk pegawai baru bisa
memprediksi seberapa loyal pegawai terhadap
perusahaan
Multicultural validity
an instrument measures what it purports to
measure as understood by an audience of a
particular culture
Caranya:
Menggunakan bahasa yang dimengerti
Memperhatikan nilai/norma/kebiasaan masyarakat
lokal
Mengukur validitas dengan
pendekatan qualitative
Evaluative
Literature review topik penelitian: memberikan
bukti bahwa instrumen akan mengukur konstruk
dan bukan lainnya.
Expert reviews
Table spesifikasi: identifikasi variabel topik/faktor
Induktif/deduktif
Mengukur validitas dengan
pendekatan quantitative
Mengukur kekuatan hubungan antara salah satu
pertanyaan dengan pertanyaan lain dalam konstruk
yang sama
Item analysis
Factor analysis
Pengukuran Validitas
Item analysis
To demonstrate a relationship between individual
items
Internal consistency reliability
1-2, 1-3, 1-4, 1-5, dst
2-3, 2-4, 2-5, 2-6, dst
Dst
Further reading: The basics of item response theory
(Baker, 2001)
Difficulty & Discrimination index
Tetapkan 10 subjek dg nilai terbaik dan 10 subject
dg nilai terburuk
Jika subject ke-10 ada beberapa .pilih secara
random
Hitung berapa banyak subject di kelompok nilai
terbaik dan nilai terburuk yang menjawab
pertanyaan 1 dg benar, pertanyaan 2 dg benar, dst
Difficulty index: (RU+RL)/20
Discrimination index: (RU-RL)/10
Name
Item 1
1
1
Difficulty Index: (8+4)/20 = 0.6
2
1
Discrimination index (8-4)/10= 0.4
3
1
Compare to the maximum discriminating index
4
0
Near maximum: very discriminating
5
1
Half the maximum: moderately discriminating
6
1
A quarter the maximum: weak item
7
0
Near zero : non-discriminating
8
1
Negative: bad item
9
1
10
1
RU=8
.
31
0
32
0
33
1
34
1
35
1
36
0
37
0
38
1
39
0
40
0
RL=4
Reliability
True Score
Systematic
Error
Random
Error
SCORE
True Score: yang ingin diukur
Systematic error: kesalahan yang selalu terjadi, misal alat ukur
tidak dikalibrasi, sehingga bukannya mengukur mulai dari 0 tapi
mulai dari 2
Random error: unpredictable error yang bisa terjadi karena
kebetulan atau memang benar-benar ada perubahan, misalnya
mood subject saat mengikuti ujian.
Sumber random error
Subject reliability: respondent lelah, mood
Observer reliability: kemampuan
observer/interviewer, background
Situasional: kondisi saat pengukuran dilakukan
(interview dilakukan dirumah dan dikantor saat
sedang sibuk akan memberikan hasil yang berbeda)
Instrument: wording yang kurang baik
Data processing: salah koding, salah entry
Cara pengukuran Reliability
Eyeballing : informal method,
administer the instrument twice to the same group of people in a
relatively short period of time to see if their responses remain
the same
Repeated measurement
1. Test-retest method
When?
Carry-over effects
Too early: over-reliability
Too late: under-reliability
How?
Mengukur seberapa kuat hubungan score yang diukur pada 2
waktu yang berbeda dengan correlation coefficient
Reliable if coefficient correlation >0.7
2. Proportion agreement
Inter-rater and Intra-rater Reliability
Inter rater: >1 rater
Intra-rater :1 rater
Calculate with Cohen s Kappa
Kappa Statistic (Cohen, 1960)
1960)
OA - EA
k =
1 - EA
OA: Kesepakatan yang terjadi
EA: Kesepakatan yg tidak disengaja
A+D
OA =
N
é N1 ´ N 3 N 2 ´ N 4 ù
+
êë
N
N úû
EA =
N
-1 0.7
Cronbach s alpha
Paling sering dipakai untuk mengukur internal consistency
Diadaptasi oleh Cronbach (1951) dari Kuder&Richardson
(1937)
n
Vi
1
n 1 Vtest
n = jumlah pertanyaan
Vi = variance score pada setiap
pertanyaan
Vtest = total variance dari skor
total (not % s) on the entire test
Large Vtest Small Ratio Vi/Vtest high alpha
How alpha works
Vi = pi * (1-pi)
» pi = percentage of class who answers correctly
» This formula can be derived from the standard
definition of variance.
Vi varies from 0 to 0.25
pi
1-pi
Vi
0
1
0
0.25
0.75
0.1875
0.5
0.5
0.25
Bagaimana jika instrumen tidak reliable?
Perhatikan jika ada salah satu item instrumen yang
salah
Perhatikan seberapa kuat hubungan antara masing-
masing item pertanyaan dengan skor
Item yang berkorelasi rendah dengan total skor
akan menurunkan reliabilitas dan sebaiknya
dihilangkan
Pada metode test-retest, perhatikan pertanyaan
yang skor awal dan akhirnya berbeda jauh.
Bagaimana meningkatkan
reliabilitas?
Pertanyaan tidak ambigu/jelas
Pertanyaan spesifik
Buat beberapa item pertanyaan untuk mengukur
satu variable
Tetapi jangan terlalu banyak
Generalisability
From sample to population
Sample: true exist or just a coincidence
Hypothesis
Null hypothesis
(H0):
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Alternative
hypothesis (H1)
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Hasil penelitian
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Kenyataan di
populasi
Interpretasi
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Null hypothesis
ditolak
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Type 1 error
Implikasi:
Kegiatan UKS
diperbanyak
Hypothesis
Null hypothesis
(H0):
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Alternative
hypothesis (H1)
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Hasil penelitian
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Kenyataan di
populasi
Interpretasi
Tidak ada
hubungan antara
perilaku hidup
bersih sehat
dengan kegiatan
UKS
Null hypothesis
diterima
Ada hubungan
antara perilaku
hidup bersih sehat
dengan kegiatan
UKS
Type 2 error
Implikasi:
menghapuskan
kegiatan uks
?
Berapa besar kemungkinan type 1 error?
Diukur dengan level of significance / p-values
/coefficient alpha
Semakin kecil coefficient alpha, semakin kecil
kemungkinannya terjadi type 1 error
Cut-off point yg sering dipakai p