APLIKASI MODEL PENGUKURAN RASCH DALAM ME
APLIKASI MODEL PENGUKURAN RASCH DALAM MENENTUKAN KESAHAN
DAN KEBOLEHPERCAYAAN UJIAN KIMIA
ABSTRAK
Marziah binti Mohamad
Universiti Kebangsaan Malaysia
[email protected]
Guru sering melaksanakan pentaksiran di bilik darjah bertujuan untuk
mengenal pasti sejauh mana objektif pembelajaran telah tercapai.
Pentaksiran melalui ujian bertulis merupakan kaedah yang sering
digunakan di bilik darjah. Bagi memastikan ujian yang ditadbir dapat
mengukur pencapaian pelajar terhadap sesuatu topik yang dipelajari
maka ujian tersebut perlu mempunyai nilai kebolehpercayaan dan
kesahan yang baik. Kajian ini dijalankan bertujuan untuk menentukan
kesahan, kebolehpercayaan, kesepadanan item-individu terhadap ujian
yang ditadbir menggunakan model pengukuran Rasch. Analisis
mendapati nilai kebolehpercayaan item ujian kimia adalah 0.99
manakala nilai kebolehpercayaan individu adalah 0.84. Analisis
kesepadanan item mendapati item paling sukar dijawab berada pada
aras pengetahuan mengikut taksonomi Bloom. Maka analisis item
dijalankan bagi mengenal pasti masalah pada item berkenaan. Selain
itu, kajian ini turut memperincikan proses pembinaan item secara
mendalam dalam aspek penentuan kesahan ujian. Kajian ini dijalankan
menggunakan kaedah kajian kes melibatkan 210 orang sampel yang
dipilih secara rawak berstarata dari sebuah pusat pendidikan
prauniversiti. Instrumen yang digunakan dalam kajian ini merupakan
item ujian pertengahan semester program prauniversiti. Kajian ini
diharapkan dapat memberikan pendedahan kepada guru dalam
melaksanakan inovasi terhadap amalan pentaksiran di bilik darjah
menggunakan modul Rasch sebagai alternatif kepada teori pengujian
klasik.
ABSTRACT
1
Teachers often work with the assessment in the classroom aims to identify the
extent to which learning objectives have been achieved. Assessment through a
written test is a method often used in the classroom. To ensure that the tests
administered to measure students achievement on a topic they have learned the
value of the test should have good reliability and validity. This study was
undertaken to determine the validity, reliability, compatibility, individual items
on the tests that are administered using the Rasch measurement model. The
analysis found that the chemistry test of the items is 0.99 while the value of
individual reliability was 0.84. Item of correspondence analysis found that the
most difficult items are answered on the level of knowledge according to Bloom
taxonomy. Then the item analysis conducted to identify problems in the item. In
addition, this study also details the construction process in detail in terms of
items of validity testing. This study was conducted using a case study involving
210 people randomly selected sample units for inclusion of a pre-university
education centers. Instruments used in this study is mid-semester test items preuniversity program. This study hoped to provide exposure to teachers in
implementing innovative assessment practices in the classroom using Rasch
module as an alternative to classical test theory.
2
PENGENALAN
Tranformasi Pentaksiran Pendidikan Negara mula dilaksanakan mulai 2010 melalui
pelaksanaan pentaksiran berasaskan sekolah. Standard telah diletakkan kepada guru sebagai
pentaksir di mana guru bertanggungjawab menjamin kualiti dan mutu pentaksiran yang
dijalankan. www.moe.gov.my (dipetik pada 20 Mac 2012). Skop keempat dalam proses
penjaminan
kualiti
pentaksiran
melibatkan
proses
pengesanan
di
mana
guru
bertanggungjawab memastikan kekuatan dan keberkesanan instrumen pentaksiran. Oleh yang
demikian, elemen kesahan dan kebolehpercayaan instrumen merupakan satu perkara yang
dititikberatkan dalam Tranformasi Pentaksiran Pendidikan Negara.
Kesahan merujuk kepada sejauh mana dapatan pentaksiran yang dilaksanakan guru
dapat dijadikan sebagai inference bagi meramal proses pembelajaran pelajar (McMillan 2011;
Cohen 2010). Kebolehpercayaan merujuk kepada ketekalan instrumen memberikan skor yang
konsisten dan stabil walaupun diuji beberapa kali Ebel (1979). Walaupun sistem pentaksiran
pendidikan negara telah bergerak ke arah pelaksanaan pentaksiran berasaskan sekolah, namun
peperiksaan bertulis masih kekal sebagai ujian rujukan standard yang menjadi penanda aras
penguasaan objektif pembelajaran seseorang pelajar.
Pentaksiran melalui ujian bertulis melibatkan pelaksanaan ujian sumatif dan formatif.
Ujian formatif merupakan ujian yang boleh ditadbir semasa atau setelah sesuatu pengajaran
dilaksanakan melibatkan beberapa objektif pembelajaran tertentu yang telah ditetapkan
bertujuan untuk mengesan kelemahan pelajar terhadap sesuatu perkara dan membantu guru
merancang tindakan pemulihan atau pengukuhan (Gardner 2006; McMillan 2007; Popham
2005). Manakala ujian sumatif melibatkan ujian yang ditadbir di pertengahan atau di akhir
semester melibatkan gabungan beberapa skop pengajaran untuk menilai keberkesanan teknik
pengajaran dan pencapaian pelajar di akhir sesuatu program atau sesi pembelajaran (Mc
Millan 2007; Murphy 2006; Popham 2005). Dalam konteks pendidikan masa kini,
kebanyakan ujian yang ditadbir melibatkan ujian rujukan kriteria di mana guru melaksanakan
ujian untuk melihat prestasi pelajar terhadap objektif pengajaran yang telah ditetapkan
(Cohen 2009; David dan David 2000; Popham 2005).
Maka guru sebagai pentaksir seharusnya menguasai kemahiran membina dan
melaksanakan pentaksiran melalui ujian. Proses pelaksanaan pentaksiran bilik darjah
menggunakan ujian bertulis melibatkan proses perancangan ujian, pembinaan item ujian,
pentadbiran ujian, analisis item ujian dan penilaian semula (Cohen 2009; Nunnally 1970).
3
Walau bagaimanapun penggunaan ujian bertulis dalam melaksanakan pentaksiran bilik darjah
telah menimbulkan beberapa isu seperti bias dalam pentaksiran oleh guru Ebel (1979),
kesahan dan kebolehpercayaan instrumen ujian Popham (2008) dan sejauh mana markah yang
diperolehi pelajar menggambarkan apa yang difahami oleh pelajar secara keseluruhannya
(Ebel 1979; Oosterhof 2003). Justeru adalah penting seorang guru itu untuk memahami
konsep pembinaan item ujian agar ujian yang dibina dapat membantu guru mengenal pasti
masalah pelajar Orlich et al. (2010), merancang tindakan penambahbaikan terhadap amalan
pedagogi di bilik darjah Gardner (2006) dan membaiki mutu ujian yang ditadbir di masa
hadapan Sudol dan Studer (2010).
Model Pengukuran Rasch
Kesahan dan kebolehpercayaan item ujian dapat ditentukan menggunakan teori pengujian
klasik (CTT) dan teori respon item (IRT). Teori pengujian klasik adalah bergantung pada
kebolehan pelajar Blunch (2008). Sekiranya ujian ditadbir kepada kumpulan pelajar lemah,
maka nilai indek kesukaran dan indek diskriminasi adalah rendah sebaliknya jika ujian
ditadbir kepada kumpulan yang mempunyai kebolehan tinggi maka nilai indek kesukaran dan
diskriminasi adalah tinggi Zeller dan Carmines (1980). Sebaliknya teori respon item satu
parameter menggunakan model pengukuran Rasch meramalkan kebarangkalian seseorang
pelajar untuk menjawab sesuatu item ujian betul atau salah bergantung pada kebolehan
individu dan kesukaran item (Bond dan Fox 2007; Chang 2010; Demars 2010).
OBJEKTIF
Kajian ini dijalankan bertujuan untuk :
1. Menentukan kesahan dan kebolehpercayaan item ujian Kimia pra universiti
menggunakan Modul Pengukuran RASCH.
2. Menggunakan Modul Pengukuran RASCH dalam menentukan kesepadanan item.
3. Menjalankan analisis bagi item yang paling sukar dijawab pelajar.
METODOLOGI
Kajian ini dijalankan menggunakan kaedah kajian kes. Kajian kes digunakan untuk mengkaji
item ujian yang ditadbir secara mendalam dari aspek kesahan, kebolehpercayaan,
kesepadanan item dan memperincikan item yang paling sukar dijawab oleh pelajar Gall dan
4
Gall (2007). Analisis terhadap jawapan pelajar dijalankan dalam kajian ini bagi menjawab
objektif kajian yang dikemukakan.
Sampel Kajian
Kajian ini dijalankan melibatkan 210 orang sampel pelajar program prauniversiti. Pemilihan
sampel di pilih secara rawak berstarata melibatkan kumpulan praktikum dari Sains Hayat,
Sains Fizikal dan Sains Bersepadu. Pemilihan sampel dipilih mewakili ketiga-tiga program
bertujuan untuk mendapatkan sampel dari pelbagai latar belakang akademik. Sampel terdiri
daripada 96 lelaki dan 114 perempuan. Daripada 210 orang sampel 65.2% merupakan pelajar
ambilan pertama, 18.6% merupakan pelajar ambilan kedua dan 16.2% pelajar mengulang.
Kesemua sampel yang dipilih mempunyai keputusan subjek kimia dan matematik peringkat
Sijil Pelajaran Malaysia (SPM) yang hampir sama iaitu minimum 5C.
Instrumen Kajian
Ujian ini mengandungi 4 soalan induk berstruktur yang dipecahkan menjadi 20 item. Pelajar
dikehendaki mengemukakan jawapan dalam bentuk esei pendek dan pengiraan. Setiap soalan
mewakili satu topik berdasarkan sukatan pelajaran kimia program pra universiti. Topik yang
diuji meliputi elektrokimia, termokimia, pengenalan kepada kimia organik dan kimia kinetik.
Item subjektif sesuai digunakan dalam ujian subjek sains kerana guru dapat menilai
pengetahuan pelajar terhadap proses sains melalui jawapan yang dikemukakan pelajar Ebel
(1979) berbanding item objektif yang memerlukan pelajar memilih jawapan daripada pilihan
yang disediakan.
Item yang dipilih untuk ujian ini telah ditaksir oleh pensyarah kimia dari universiti
tempatan dan pensyarah yang mengajar program prauniversiti yang mempunyai kepakaran
dalam bidang kimia dengan pengalaman mengajar program pra universiti melebihi sepuluh
tahun. Ujian ditadbir secara berpusat melibatkan semua program pra universiti seluruh
negara. Prosedur pembinaan item ujian melibatkan proses pembinaan Jadual Spesifikasi
Ujian. Jadual Spesifikasi Ujian dibina bertujuan untuk memastikan item yang dibina menguji
berdasarkan setiap aras kesukaran taksonomi Bloom Noraini (2005). Taburan item mengikut
aras kesukaran adalah pengetahuan 40%, kefahaman 25%, aplikasi 15%, analisis 5%, sintesis
10% dan penilaian 5%.
5
DAPATAN KAJIAN DAN PERBINCANGAN
Jadual 1 dan Jadual 2 menunjukkan analisis statistik yang dihasilkan oleh analisis Rasch bagi
melihat kebolehpercayaan item dan kebolehpercayaan individu. Kebolehpercayaan individu
dalam ujian ini adalah 0.84 manakala kebolehpercayaan item adalah 0.99. Kedua-dua nilai
kebolehpercayaan ini adalah tinggi dan baik. Nilai kebolehpercayaan diintepretasi
menggunakan Cronbach’s alpha (Bond dan Fox 2007). Nilai indek pengasingan individu
adalah 2.30 menunjukkan 210 sampel boleh dibahagikan kepada dua strata mengikut
kebolehan yang dikenal pasti Linarce (2005). Nilai indeks pengasingan bagi item adalah 8.65
menunjukkan 20 item ujian yang ditadbir boleh dibahagikan kepada 9 strata mengikut aras
kesukaran. Analisis Rasch turut menunjukkan mean individu adalah bernilai -6.36 logit ini
menunjukkan kebolehan individu adalah rendah terhadap item Wright dan Stone (1999).
Jadual 1 : Kebolehpercayaan Individu
------------------------------------------------------------------------------|
TOTAL
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
26.1
20.0
-6.36
.31
1.05
.1
.97
.0 |
| S.D.
134.2
.3
.89
.08
.40
1.1
.45
.8 |
| MAX.
1963.0
20.0
.59
.60
2.31
2.7
2.80
2.4 |
| MIN.
3.0
15.0
-8.32
.04
.08
-2.3
.16
-2.0 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.35 TRUE SD
.81 SEPARATION 2.30 PERSON RELIABILITY .84 |
|MODEL RMSE
.32 TRUE SD
.82 SEPARATION 2.55 PERSON RELIABILITY .87 |
| S.E. OF PERSON MEAN = .06
|
-------------------------------------------------------------------------------
Jadual 2 : Kebolehpercayaan Item
------------------------------------------------------------------------------|
TOTAL
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
274.2
209.7
.00
.10
.78
.4
.97
-.2 |
| S.D.
105.7
.4
1.12
.08
.40
2.0
.39
3.1 |
| MAX.
406.0
210.0
3.80
.44
1.80
7.3
1.80
6.4 |
| MIN.
8.0
209.0
-1.50
.07
.30
-2.4
.44
-4.4 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.13 TRUE SD
1.11 SEPARATION 8.65 ITEM
RELIABILITY .99 |
|MODEL RMSE
.13 TRUE SD
1.11 SEPARATION 8.78 ITEM
RELIABILITY .99 |
| S.E. OF ITEM MEAN = .26
|
-------------------------------------------------------------------------------
Rajah 1 menunjukkan taburan peta item-individu. Peta Item-individu menunjukkan
taburan kesukaran item tidak sepadan dengan kemampuan individu. Item berada pada logit
lebih tinggi berbanding individu menunjukkan soalan sukar dan tidak sepadan dengan
6
kemampuan individu. Item 4Aii berada pada logit paling tinggi dan ini menunjukkan item
tersebut adalah merupakan item paling sukar dijawab oleh pelajar manakala item paling
mudah merupakan item 2Aiii.
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
-9
EACH
|
+
| 4Aii
|
|
+
|
|
|T
+
|
|
| 1Ai
+S 3A
| 2Aiv
. | 2Aii
2Bi
| 1Bii
4Ci
+M 1Bi
| 2Ai
3C
| 3B
3D
|
+S 1Aii
2Bii
| 3E
| 2Aiii
|
+
|T
|
|
+
|
|
|
+
|
T|
|
.## +
.##### |
.### S|
.##### |
######### +
####### M|
.############ |
.#### |
.######### +
.#### S|
# |
.# |
.# +
.# T|
|
|
+
|
"#" IS 3. EACH "." IS 1 TO 2
4Cii
4B
4Ai
Rajah 1 : Peta Item-individu
Item 4Aii mempunyai nilai logit +3.80 merupakan item paling sukar dijawab
manakala item 2Aiii dengan nilai logit -1.50 merupakan item paling mudah dijawab.
7
Berdasarkan jadual spesifikasi ujian, item 4Aii menguji pengetahuan pelajar terhadap karbon
kiral. Analisis terhadap item 4Aii mendapati item ini meminta pelajar melabelkan karbon
kiral pada struktur kimia yang diberikan. Kata kerja melabel merujuk pada aras pengetahuan
pada taksonomi Bloom Bloom (1956) dan domain ‘factual knowledge’ mengikut taksonomi
baru Marzano dan Kandall. McMillan (2011). Pelajar dijangkakan dapat menjawab soalan ini
dengan baik namun perkara sebaliknya berlaku.
Analisis jawapan pelajar merupakan satu kaedah yang digunakan guru dalam
mengenal pasti masalah pelajar menjawab soalan ujian Kelly (2011) dan membantu guru
meningkatkan kemahiran dalam membina item soalan berkualiti Denny (2008). Rajah 2
merupakan item 4Aii yang diuji dalam ujian tersebut.
4
Cl
(A)
O
C
OH
C
NH CH3
O
Structure S
(i)
Redraw the structure, circle and name all the functional groups that exist in S.
(ii)
Label the chiral carbons with asterisks (*).
Rajah 2 : Item paling sukar
Karbon kiral adalah atom karbon berikatan tunggal dengan hibrid sp 3 yang terikat
dengan empat atom atau empat kumpulan atom yang berbeza Brawn et al. (2012).
Miskonsepsi dalam subjek kimia berlaku pada hampir semua topik dan setiap peringkat
pengajian. Miskonsepsi dalam subjek sains sering berlaku apabila melibatkan penerangan
terhadap perkara abstrak Barke et al. (2009). Atom dan molekul merupakan salah satu dari
lima belas topik yang mengalami miskonsepsi paling tinggi dalam kalangan pelajar bagi
subjek kimia (Dieter 2009; Barke et al. (2009).
Analisis terhadap jawapan pelajar mendapati pelajar tidak dapat menentukan karbon
kiral pada gelang siklik. Ini adalah kerana pelajar tidak dapat menginterpretasikan definisi
karbon kiral dalam struktur kimia. Pelajar tidak dapat menentukan sama ada atom karbon
8
pada gelang siklik terikat dengan empat atom atau kumpulan atom yang berbeza. Gelang
siklik merupakan pengganggu yang tidak baik kerana ia tidak dapat membezakan antara
pelajar yang baik dan lemah Osterlind (1983). Selain itu, kebanyakan pelajar menyatakan
karbon berikatan ganda dua sebagai karbon kiral kerana atom karbon tersebut terikat dengan
atom dan kumpulan atom yang berbeza. Sebaliknya definisi karbon kiral menyatakan karbon
kiral adalah atom karbon yang mempunyai ikatan tunggal dan terikat dengan atom dan
kumpulan atom yang berbeza. Rajah 3 menunjukkan contoh jawapan pelajar bagi item 4Aii di
mana kebanyakan pelajar menyatakan carbon berikatan ganda dua sebagai karbon kiral dan
setiap atom karbon pada gelang siklik sebagai karbon kiral.
Rajah 3 : Contoh jawapan pelajar bagi item 4aii
KESIMPULAN
Penggunaan model Rasch dalam menentukan kesahan, kebolehpercayaan dan kesepadanan
item merupakan alternatif kepada teori pengujian klasik. Kesahan dan kebolehpercayaan
merupakan elemen penting dalam penyediaan item soalan . Guru seharusnya berpengetahuan
dalam menentukan kesahan dan kebolehpercayaan kerana guru sering terlibat dalam
pembinaan item ujian formatif atau sumatif Magno (2009). Dapatan kajian ini diharap dapat
membantu guru dalam menjalankan analisis terhadap item ujian. Analisis terhadap item ujian
adalah penting bagi mengenal pasti miskonsepsi pelajar terhadap sesuatu perkara Tobin et al.
(2012) atau mengesan masalah pada item ujian yang dibina Dawning dan Haladyna (2006).
Kajian ini diharapkan dapat memberikan perspektif baru kepada guru dalam
melaksanakan inovasi terhadap pentaksiran di bilik darjah dengan menggunakan model
pengukuran Rasch. Oleh yang demikian, pihak Kementerian Pelajaran Malaysia perlu
memberikan pendedahan dan bimbingan kepada guru bagaimana untuk mengaplikasikan
9
model Rasch dalam melaksanakan pentaksiran terhadap ujian yang ditadbir supaya ujian yang
ditadbir berkualiti dan menepati standard yang ditetapkan.
SENARAI RUJUKAN
Barke, H.D., Al Hazari, Yitbarek, S. 2009. Misconceptions in Chemistry Addressing
Perceptions in Chemical Education. United State of America: Springer.
Blunch, N.J. 2008. Introduction to Structural Equation Modelling using SPSS and AMOS.
London: Sage Publications Ltd.
Bloom, B.S. 1956. Taxonomy of educational objectives: the classification of educational
goals volume 1. United State of America: Longmans.
Bond, T.G dan Fox, C.M. 2007. Applying the Rasch Model Fundamental Measurement in the
Human Science 2nd Edition. New York: Routledge Taylor & Francis Group.
Cohen, R.J & Swerdlik, M.E. 2010. Psychological Testing and Assessment An Introduction
to Test & Measurement 7th Edition. New York: Mc Graw Hill.
David, L. dan David, L. 2000. Understanding Assessment Purposes, Perceptions and
Practice. New York: Routledge Falmer.
Demars, C. 2010. Item Response Theory Understanding Statistics Measurement. New York:
Oxford University Press.
Denny, P. , Reilly, A.L. dan Simon, B. 2008. Evaluating a new exam questions: Person
Problem. ICER’08 September: 6-10.
Ebel, R.L. 1979. Essentials of Educational Measurement 3rd Edition. New Jersey: Prentice
Hall Inc.
Gall, M.D. dan Gall, J.P. 2007. Educational Research an introduction 7th edition. New York:
Ally and Bacon.
Gardner, J (pnyt.). 2006. Assessment and Learning. London: Sage Publication.
Kelly, J dan Krause, S. 2011. Assessment Resources for Introductory Material Science and
engineering Course. MRS Proceeding 2011. Hlm 4-9.
Linarce, J.M.2006. A user’s guide to Winstep Rasch Model Computer Programs.
Magno, C. 2009. Demonstrating the difference between classical test theory and item
response theory using derived test data. The International Journal of Educational and
Psychological Assessment. 1 (1) : 1-11.
McMillan, J.H. 2007. The Practical Implication of educational aims and context for
formative assessment. carlifonia: Corwin Press.
McMillan, J.H. 2011. Classroom Assessment Principle and Practice for Effective Standard
Base Instruction. United State of America: Pearsons Merrill Prentice Hall.
10
Murphy, R. 2006. Evaluation New properties for assessment in higher education. New York:
Routledge Taylor & Francais Group.
Noraini Idris. 2005. Pedagogi dalam pendidikan matematik. Kuala Lumpur: Utusan
Publications.
Nunnally, J.C. 1970. Introduction to Psychological Measurement. United states of America:
Mc Graw Hill.
Oosterhof, A. 2003. Developing and Using Classroom Assessment 3 rd Edition. United State
of America: Prentice Hall.
Orlich, D.C., Harder, J.R., Callana, R.C, Trevisan., M.S. dan Brawn, A.H. 2010. Teaching
Strategies: A Guide To Effective Instrumentation 9 th Edition. United State of America:
Wadsworth Cengage Learning.
Osterlind, S.J. 1983. Test Item Bias. United State of America: Sage Publications, Inc.
Popham, W.J. 2005. Classroom Assessment: What teachers need to know. United State of
America: Allyn dan Bacon.
Popham, W.J. 2005. Modern Educational Measurement 4th Edition. United State of America:
Pearson Education.
Popham, W.J. 2008. Transformative Assessment. United State of America. ASCD
Publications.
Popham, W.J. 2009. Assessing Student Affect. Educational Leardership 66(8) : 85-96.
Sudol, L.A dan Studer, C. 2010.Analyzing Test Items: using Item Response Theory to
Validate Assessment. SIGGE’10 March: 10-15.
Wright, B.D. dan Stone, M.H. 1999. Measurement Essentials 2nd edition. Wilmington: Wide
Range, Inc.
Zeller, R.A dan Carmines, E.G. 1980. Measurement in the Social Sciences: The link between
theory and data. United State of America: Cambridge University Press.
11
DAN KEBOLEHPERCAYAAN UJIAN KIMIA
ABSTRAK
Marziah binti Mohamad
Universiti Kebangsaan Malaysia
[email protected]
Guru sering melaksanakan pentaksiran di bilik darjah bertujuan untuk
mengenal pasti sejauh mana objektif pembelajaran telah tercapai.
Pentaksiran melalui ujian bertulis merupakan kaedah yang sering
digunakan di bilik darjah. Bagi memastikan ujian yang ditadbir dapat
mengukur pencapaian pelajar terhadap sesuatu topik yang dipelajari
maka ujian tersebut perlu mempunyai nilai kebolehpercayaan dan
kesahan yang baik. Kajian ini dijalankan bertujuan untuk menentukan
kesahan, kebolehpercayaan, kesepadanan item-individu terhadap ujian
yang ditadbir menggunakan model pengukuran Rasch. Analisis
mendapati nilai kebolehpercayaan item ujian kimia adalah 0.99
manakala nilai kebolehpercayaan individu adalah 0.84. Analisis
kesepadanan item mendapati item paling sukar dijawab berada pada
aras pengetahuan mengikut taksonomi Bloom. Maka analisis item
dijalankan bagi mengenal pasti masalah pada item berkenaan. Selain
itu, kajian ini turut memperincikan proses pembinaan item secara
mendalam dalam aspek penentuan kesahan ujian. Kajian ini dijalankan
menggunakan kaedah kajian kes melibatkan 210 orang sampel yang
dipilih secara rawak berstarata dari sebuah pusat pendidikan
prauniversiti. Instrumen yang digunakan dalam kajian ini merupakan
item ujian pertengahan semester program prauniversiti. Kajian ini
diharapkan dapat memberikan pendedahan kepada guru dalam
melaksanakan inovasi terhadap amalan pentaksiran di bilik darjah
menggunakan modul Rasch sebagai alternatif kepada teori pengujian
klasik.
ABSTRACT
1
Teachers often work with the assessment in the classroom aims to identify the
extent to which learning objectives have been achieved. Assessment through a
written test is a method often used in the classroom. To ensure that the tests
administered to measure students achievement on a topic they have learned the
value of the test should have good reliability and validity. This study was
undertaken to determine the validity, reliability, compatibility, individual items
on the tests that are administered using the Rasch measurement model. The
analysis found that the chemistry test of the items is 0.99 while the value of
individual reliability was 0.84. Item of correspondence analysis found that the
most difficult items are answered on the level of knowledge according to Bloom
taxonomy. Then the item analysis conducted to identify problems in the item. In
addition, this study also details the construction process in detail in terms of
items of validity testing. This study was conducted using a case study involving
210 people randomly selected sample units for inclusion of a pre-university
education centers. Instruments used in this study is mid-semester test items preuniversity program. This study hoped to provide exposure to teachers in
implementing innovative assessment practices in the classroom using Rasch
module as an alternative to classical test theory.
2
PENGENALAN
Tranformasi Pentaksiran Pendidikan Negara mula dilaksanakan mulai 2010 melalui
pelaksanaan pentaksiran berasaskan sekolah. Standard telah diletakkan kepada guru sebagai
pentaksir di mana guru bertanggungjawab menjamin kualiti dan mutu pentaksiran yang
dijalankan. www.moe.gov.my (dipetik pada 20 Mac 2012). Skop keempat dalam proses
penjaminan
kualiti
pentaksiran
melibatkan
proses
pengesanan
di
mana
guru
bertanggungjawab memastikan kekuatan dan keberkesanan instrumen pentaksiran. Oleh yang
demikian, elemen kesahan dan kebolehpercayaan instrumen merupakan satu perkara yang
dititikberatkan dalam Tranformasi Pentaksiran Pendidikan Negara.
Kesahan merujuk kepada sejauh mana dapatan pentaksiran yang dilaksanakan guru
dapat dijadikan sebagai inference bagi meramal proses pembelajaran pelajar (McMillan 2011;
Cohen 2010). Kebolehpercayaan merujuk kepada ketekalan instrumen memberikan skor yang
konsisten dan stabil walaupun diuji beberapa kali Ebel (1979). Walaupun sistem pentaksiran
pendidikan negara telah bergerak ke arah pelaksanaan pentaksiran berasaskan sekolah, namun
peperiksaan bertulis masih kekal sebagai ujian rujukan standard yang menjadi penanda aras
penguasaan objektif pembelajaran seseorang pelajar.
Pentaksiran melalui ujian bertulis melibatkan pelaksanaan ujian sumatif dan formatif.
Ujian formatif merupakan ujian yang boleh ditadbir semasa atau setelah sesuatu pengajaran
dilaksanakan melibatkan beberapa objektif pembelajaran tertentu yang telah ditetapkan
bertujuan untuk mengesan kelemahan pelajar terhadap sesuatu perkara dan membantu guru
merancang tindakan pemulihan atau pengukuhan (Gardner 2006; McMillan 2007; Popham
2005). Manakala ujian sumatif melibatkan ujian yang ditadbir di pertengahan atau di akhir
semester melibatkan gabungan beberapa skop pengajaran untuk menilai keberkesanan teknik
pengajaran dan pencapaian pelajar di akhir sesuatu program atau sesi pembelajaran (Mc
Millan 2007; Murphy 2006; Popham 2005). Dalam konteks pendidikan masa kini,
kebanyakan ujian yang ditadbir melibatkan ujian rujukan kriteria di mana guru melaksanakan
ujian untuk melihat prestasi pelajar terhadap objektif pengajaran yang telah ditetapkan
(Cohen 2009; David dan David 2000; Popham 2005).
Maka guru sebagai pentaksir seharusnya menguasai kemahiran membina dan
melaksanakan pentaksiran melalui ujian. Proses pelaksanaan pentaksiran bilik darjah
menggunakan ujian bertulis melibatkan proses perancangan ujian, pembinaan item ujian,
pentadbiran ujian, analisis item ujian dan penilaian semula (Cohen 2009; Nunnally 1970).
3
Walau bagaimanapun penggunaan ujian bertulis dalam melaksanakan pentaksiran bilik darjah
telah menimbulkan beberapa isu seperti bias dalam pentaksiran oleh guru Ebel (1979),
kesahan dan kebolehpercayaan instrumen ujian Popham (2008) dan sejauh mana markah yang
diperolehi pelajar menggambarkan apa yang difahami oleh pelajar secara keseluruhannya
(Ebel 1979; Oosterhof 2003). Justeru adalah penting seorang guru itu untuk memahami
konsep pembinaan item ujian agar ujian yang dibina dapat membantu guru mengenal pasti
masalah pelajar Orlich et al. (2010), merancang tindakan penambahbaikan terhadap amalan
pedagogi di bilik darjah Gardner (2006) dan membaiki mutu ujian yang ditadbir di masa
hadapan Sudol dan Studer (2010).
Model Pengukuran Rasch
Kesahan dan kebolehpercayaan item ujian dapat ditentukan menggunakan teori pengujian
klasik (CTT) dan teori respon item (IRT). Teori pengujian klasik adalah bergantung pada
kebolehan pelajar Blunch (2008). Sekiranya ujian ditadbir kepada kumpulan pelajar lemah,
maka nilai indek kesukaran dan indek diskriminasi adalah rendah sebaliknya jika ujian
ditadbir kepada kumpulan yang mempunyai kebolehan tinggi maka nilai indek kesukaran dan
diskriminasi adalah tinggi Zeller dan Carmines (1980). Sebaliknya teori respon item satu
parameter menggunakan model pengukuran Rasch meramalkan kebarangkalian seseorang
pelajar untuk menjawab sesuatu item ujian betul atau salah bergantung pada kebolehan
individu dan kesukaran item (Bond dan Fox 2007; Chang 2010; Demars 2010).
OBJEKTIF
Kajian ini dijalankan bertujuan untuk :
1. Menentukan kesahan dan kebolehpercayaan item ujian Kimia pra universiti
menggunakan Modul Pengukuran RASCH.
2. Menggunakan Modul Pengukuran RASCH dalam menentukan kesepadanan item.
3. Menjalankan analisis bagi item yang paling sukar dijawab pelajar.
METODOLOGI
Kajian ini dijalankan menggunakan kaedah kajian kes. Kajian kes digunakan untuk mengkaji
item ujian yang ditadbir secara mendalam dari aspek kesahan, kebolehpercayaan,
kesepadanan item dan memperincikan item yang paling sukar dijawab oleh pelajar Gall dan
4
Gall (2007). Analisis terhadap jawapan pelajar dijalankan dalam kajian ini bagi menjawab
objektif kajian yang dikemukakan.
Sampel Kajian
Kajian ini dijalankan melibatkan 210 orang sampel pelajar program prauniversiti. Pemilihan
sampel di pilih secara rawak berstarata melibatkan kumpulan praktikum dari Sains Hayat,
Sains Fizikal dan Sains Bersepadu. Pemilihan sampel dipilih mewakili ketiga-tiga program
bertujuan untuk mendapatkan sampel dari pelbagai latar belakang akademik. Sampel terdiri
daripada 96 lelaki dan 114 perempuan. Daripada 210 orang sampel 65.2% merupakan pelajar
ambilan pertama, 18.6% merupakan pelajar ambilan kedua dan 16.2% pelajar mengulang.
Kesemua sampel yang dipilih mempunyai keputusan subjek kimia dan matematik peringkat
Sijil Pelajaran Malaysia (SPM) yang hampir sama iaitu minimum 5C.
Instrumen Kajian
Ujian ini mengandungi 4 soalan induk berstruktur yang dipecahkan menjadi 20 item. Pelajar
dikehendaki mengemukakan jawapan dalam bentuk esei pendek dan pengiraan. Setiap soalan
mewakili satu topik berdasarkan sukatan pelajaran kimia program pra universiti. Topik yang
diuji meliputi elektrokimia, termokimia, pengenalan kepada kimia organik dan kimia kinetik.
Item subjektif sesuai digunakan dalam ujian subjek sains kerana guru dapat menilai
pengetahuan pelajar terhadap proses sains melalui jawapan yang dikemukakan pelajar Ebel
(1979) berbanding item objektif yang memerlukan pelajar memilih jawapan daripada pilihan
yang disediakan.
Item yang dipilih untuk ujian ini telah ditaksir oleh pensyarah kimia dari universiti
tempatan dan pensyarah yang mengajar program prauniversiti yang mempunyai kepakaran
dalam bidang kimia dengan pengalaman mengajar program pra universiti melebihi sepuluh
tahun. Ujian ditadbir secara berpusat melibatkan semua program pra universiti seluruh
negara. Prosedur pembinaan item ujian melibatkan proses pembinaan Jadual Spesifikasi
Ujian. Jadual Spesifikasi Ujian dibina bertujuan untuk memastikan item yang dibina menguji
berdasarkan setiap aras kesukaran taksonomi Bloom Noraini (2005). Taburan item mengikut
aras kesukaran adalah pengetahuan 40%, kefahaman 25%, aplikasi 15%, analisis 5%, sintesis
10% dan penilaian 5%.
5
DAPATAN KAJIAN DAN PERBINCANGAN
Jadual 1 dan Jadual 2 menunjukkan analisis statistik yang dihasilkan oleh analisis Rasch bagi
melihat kebolehpercayaan item dan kebolehpercayaan individu. Kebolehpercayaan individu
dalam ujian ini adalah 0.84 manakala kebolehpercayaan item adalah 0.99. Kedua-dua nilai
kebolehpercayaan ini adalah tinggi dan baik. Nilai kebolehpercayaan diintepretasi
menggunakan Cronbach’s alpha (Bond dan Fox 2007). Nilai indek pengasingan individu
adalah 2.30 menunjukkan 210 sampel boleh dibahagikan kepada dua strata mengikut
kebolehan yang dikenal pasti Linarce (2005). Nilai indeks pengasingan bagi item adalah 8.65
menunjukkan 20 item ujian yang ditadbir boleh dibahagikan kepada 9 strata mengikut aras
kesukaran. Analisis Rasch turut menunjukkan mean individu adalah bernilai -6.36 logit ini
menunjukkan kebolehan individu adalah rendah terhadap item Wright dan Stone (1999).
Jadual 1 : Kebolehpercayaan Individu
------------------------------------------------------------------------------|
TOTAL
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
26.1
20.0
-6.36
.31
1.05
.1
.97
.0 |
| S.D.
134.2
.3
.89
.08
.40
1.1
.45
.8 |
| MAX.
1963.0
20.0
.59
.60
2.31
2.7
2.80
2.4 |
| MIN.
3.0
15.0
-8.32
.04
.08
-2.3
.16
-2.0 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.35 TRUE SD
.81 SEPARATION 2.30 PERSON RELIABILITY .84 |
|MODEL RMSE
.32 TRUE SD
.82 SEPARATION 2.55 PERSON RELIABILITY .87 |
| S.E. OF PERSON MEAN = .06
|
-------------------------------------------------------------------------------
Jadual 2 : Kebolehpercayaan Item
------------------------------------------------------------------------------|
TOTAL
MODEL
INFIT
OUTFIT
|
|
SCORE
COUNT
MEASURE
ERROR
MNSQ
ZSTD
MNSQ
ZSTD |
|-----------------------------------------------------------------------------|
| MEAN
274.2
209.7
.00
.10
.78
.4
.97
-.2 |
| S.D.
105.7
.4
1.12
.08
.40
2.0
.39
3.1 |
| MAX.
406.0
210.0
3.80
.44
1.80
7.3
1.80
6.4 |
| MIN.
8.0
209.0
-1.50
.07
.30
-2.4
.44
-4.4 |
|-----------------------------------------------------------------------------|
| REAL RMSE
.13 TRUE SD
1.11 SEPARATION 8.65 ITEM
RELIABILITY .99 |
|MODEL RMSE
.13 TRUE SD
1.11 SEPARATION 8.78 ITEM
RELIABILITY .99 |
| S.E. OF ITEM MEAN = .26
|
-------------------------------------------------------------------------------
Rajah 1 menunjukkan taburan peta item-individu. Peta Item-individu menunjukkan
taburan kesukaran item tidak sepadan dengan kemampuan individu. Item berada pada logit
lebih tinggi berbanding individu menunjukkan soalan sukar dan tidak sepadan dengan
6
kemampuan individu. Item 4Aii berada pada logit paling tinggi dan ini menunjukkan item
tersebut adalah merupakan item paling sukar dijawab oleh pelajar manakala item paling
mudah merupakan item 2Aiii.
4
3
2
1
0
-1
-2
-3
-4
-5
-6
-7
-8
-9
EACH
|
+
| 4Aii
|
|
+
|
|
|T
+
|
|
| 1Ai
+S 3A
| 2Aiv
. | 2Aii
2Bi
| 1Bii
4Ci
+M 1Bi
| 2Ai
3C
| 3B
3D
|
+S 1Aii
2Bii
| 3E
| 2Aiii
|
+
|T
|
|
+
|
|
|
+
|
T|
|
.## +
.##### |
.### S|
.##### |
######### +
####### M|
.############ |
.#### |
.######### +
.#### S|
# |
.# |
.# +
.# T|
|
|
+
|
"#" IS 3. EACH "." IS 1 TO 2
4Cii
4B
4Ai
Rajah 1 : Peta Item-individu
Item 4Aii mempunyai nilai logit +3.80 merupakan item paling sukar dijawab
manakala item 2Aiii dengan nilai logit -1.50 merupakan item paling mudah dijawab.
7
Berdasarkan jadual spesifikasi ujian, item 4Aii menguji pengetahuan pelajar terhadap karbon
kiral. Analisis terhadap item 4Aii mendapati item ini meminta pelajar melabelkan karbon
kiral pada struktur kimia yang diberikan. Kata kerja melabel merujuk pada aras pengetahuan
pada taksonomi Bloom Bloom (1956) dan domain ‘factual knowledge’ mengikut taksonomi
baru Marzano dan Kandall. McMillan (2011). Pelajar dijangkakan dapat menjawab soalan ini
dengan baik namun perkara sebaliknya berlaku.
Analisis jawapan pelajar merupakan satu kaedah yang digunakan guru dalam
mengenal pasti masalah pelajar menjawab soalan ujian Kelly (2011) dan membantu guru
meningkatkan kemahiran dalam membina item soalan berkualiti Denny (2008). Rajah 2
merupakan item 4Aii yang diuji dalam ujian tersebut.
4
Cl
(A)
O
C
OH
C
NH CH3
O
Structure S
(i)
Redraw the structure, circle and name all the functional groups that exist in S.
(ii)
Label the chiral carbons with asterisks (*).
Rajah 2 : Item paling sukar
Karbon kiral adalah atom karbon berikatan tunggal dengan hibrid sp 3 yang terikat
dengan empat atom atau empat kumpulan atom yang berbeza Brawn et al. (2012).
Miskonsepsi dalam subjek kimia berlaku pada hampir semua topik dan setiap peringkat
pengajian. Miskonsepsi dalam subjek sains sering berlaku apabila melibatkan penerangan
terhadap perkara abstrak Barke et al. (2009). Atom dan molekul merupakan salah satu dari
lima belas topik yang mengalami miskonsepsi paling tinggi dalam kalangan pelajar bagi
subjek kimia (Dieter 2009; Barke et al. (2009).
Analisis terhadap jawapan pelajar mendapati pelajar tidak dapat menentukan karbon
kiral pada gelang siklik. Ini adalah kerana pelajar tidak dapat menginterpretasikan definisi
karbon kiral dalam struktur kimia. Pelajar tidak dapat menentukan sama ada atom karbon
8
pada gelang siklik terikat dengan empat atom atau kumpulan atom yang berbeza. Gelang
siklik merupakan pengganggu yang tidak baik kerana ia tidak dapat membezakan antara
pelajar yang baik dan lemah Osterlind (1983). Selain itu, kebanyakan pelajar menyatakan
karbon berikatan ganda dua sebagai karbon kiral kerana atom karbon tersebut terikat dengan
atom dan kumpulan atom yang berbeza. Sebaliknya definisi karbon kiral menyatakan karbon
kiral adalah atom karbon yang mempunyai ikatan tunggal dan terikat dengan atom dan
kumpulan atom yang berbeza. Rajah 3 menunjukkan contoh jawapan pelajar bagi item 4Aii di
mana kebanyakan pelajar menyatakan carbon berikatan ganda dua sebagai karbon kiral dan
setiap atom karbon pada gelang siklik sebagai karbon kiral.
Rajah 3 : Contoh jawapan pelajar bagi item 4aii
KESIMPULAN
Penggunaan model Rasch dalam menentukan kesahan, kebolehpercayaan dan kesepadanan
item merupakan alternatif kepada teori pengujian klasik. Kesahan dan kebolehpercayaan
merupakan elemen penting dalam penyediaan item soalan . Guru seharusnya berpengetahuan
dalam menentukan kesahan dan kebolehpercayaan kerana guru sering terlibat dalam
pembinaan item ujian formatif atau sumatif Magno (2009). Dapatan kajian ini diharap dapat
membantu guru dalam menjalankan analisis terhadap item ujian. Analisis terhadap item ujian
adalah penting bagi mengenal pasti miskonsepsi pelajar terhadap sesuatu perkara Tobin et al.
(2012) atau mengesan masalah pada item ujian yang dibina Dawning dan Haladyna (2006).
Kajian ini diharapkan dapat memberikan perspektif baru kepada guru dalam
melaksanakan inovasi terhadap pentaksiran di bilik darjah dengan menggunakan model
pengukuran Rasch. Oleh yang demikian, pihak Kementerian Pelajaran Malaysia perlu
memberikan pendedahan dan bimbingan kepada guru bagaimana untuk mengaplikasikan
9
model Rasch dalam melaksanakan pentaksiran terhadap ujian yang ditadbir supaya ujian yang
ditadbir berkualiti dan menepati standard yang ditetapkan.
SENARAI RUJUKAN
Barke, H.D., Al Hazari, Yitbarek, S. 2009. Misconceptions in Chemistry Addressing
Perceptions in Chemical Education. United State of America: Springer.
Blunch, N.J. 2008. Introduction to Structural Equation Modelling using SPSS and AMOS.
London: Sage Publications Ltd.
Bloom, B.S. 1956. Taxonomy of educational objectives: the classification of educational
goals volume 1. United State of America: Longmans.
Bond, T.G dan Fox, C.M. 2007. Applying the Rasch Model Fundamental Measurement in the
Human Science 2nd Edition. New York: Routledge Taylor & Francis Group.
Cohen, R.J & Swerdlik, M.E. 2010. Psychological Testing and Assessment An Introduction
to Test & Measurement 7th Edition. New York: Mc Graw Hill.
David, L. dan David, L. 2000. Understanding Assessment Purposes, Perceptions and
Practice. New York: Routledge Falmer.
Demars, C. 2010. Item Response Theory Understanding Statistics Measurement. New York:
Oxford University Press.
Denny, P. , Reilly, A.L. dan Simon, B. 2008. Evaluating a new exam questions: Person
Problem. ICER’08 September: 6-10.
Ebel, R.L. 1979. Essentials of Educational Measurement 3rd Edition. New Jersey: Prentice
Hall Inc.
Gall, M.D. dan Gall, J.P. 2007. Educational Research an introduction 7th edition. New York:
Ally and Bacon.
Gardner, J (pnyt.). 2006. Assessment and Learning. London: Sage Publication.
Kelly, J dan Krause, S. 2011. Assessment Resources for Introductory Material Science and
engineering Course. MRS Proceeding 2011. Hlm 4-9.
Linarce, J.M.2006. A user’s guide to Winstep Rasch Model Computer Programs.
Magno, C. 2009. Demonstrating the difference between classical test theory and item
response theory using derived test data. The International Journal of Educational and
Psychological Assessment. 1 (1) : 1-11.
McMillan, J.H. 2007. The Practical Implication of educational aims and context for
formative assessment. carlifonia: Corwin Press.
McMillan, J.H. 2011. Classroom Assessment Principle and Practice for Effective Standard
Base Instruction. United State of America: Pearsons Merrill Prentice Hall.
10
Murphy, R. 2006. Evaluation New properties for assessment in higher education. New York:
Routledge Taylor & Francais Group.
Noraini Idris. 2005. Pedagogi dalam pendidikan matematik. Kuala Lumpur: Utusan
Publications.
Nunnally, J.C. 1970. Introduction to Psychological Measurement. United states of America:
Mc Graw Hill.
Oosterhof, A. 2003. Developing and Using Classroom Assessment 3 rd Edition. United State
of America: Prentice Hall.
Orlich, D.C., Harder, J.R., Callana, R.C, Trevisan., M.S. dan Brawn, A.H. 2010. Teaching
Strategies: A Guide To Effective Instrumentation 9 th Edition. United State of America:
Wadsworth Cengage Learning.
Osterlind, S.J. 1983. Test Item Bias. United State of America: Sage Publications, Inc.
Popham, W.J. 2005. Classroom Assessment: What teachers need to know. United State of
America: Allyn dan Bacon.
Popham, W.J. 2005. Modern Educational Measurement 4th Edition. United State of America:
Pearson Education.
Popham, W.J. 2008. Transformative Assessment. United State of America. ASCD
Publications.
Popham, W.J. 2009. Assessing Student Affect. Educational Leardership 66(8) : 85-96.
Sudol, L.A dan Studer, C. 2010.Analyzing Test Items: using Item Response Theory to
Validate Assessment. SIGGE’10 March: 10-15.
Wright, B.D. dan Stone, M.H. 1999. Measurement Essentials 2nd edition. Wilmington: Wide
Range, Inc.
Zeller, R.A dan Carmines, E.G. 1980. Measurement in the Social Sciences: The link between
theory and data. United State of America: Cambridge University Press.
11