Subjekivias penlaian guru menjelajahi ka

Subjekivias penlaian guru : menjelajahi karakterisik siswa
memperngaruhi penilaian guru terhadap kemampuan siswa

yang

1. pendahuluan
Kemampuan guru untuk secara akurat mengukur prestasi belajar
siswadianggap sebagai aspek penting profesional guru kompetensi, karena
penilaian guru sering menjadi sumber utama informasi tentang prestasi belajar
siswa (Ready & Wright, 2011; Südkamp, Kaiser, & M oller, 2012; Südkamp,
Kaiser, & Möller,2014). Penilaian guru adalah determinasi yang dibuat oleh guru
tentang pencapaian siswa saat ini (lihat Bagian 2 lebih lanjut detail), dan dapat
mempengaruhi pengambilan keputusan instruksional guru yang sedang
berlangsung di dalam kelas, termasuk kecepatan instruksional, tingkat
dukungan, dan tingkat kesulitan tugas (Alvidrez & Weinstein, 1999;Clark &
Peterson, 1986; Hoge & Coladarci, 1989). Sebagai contoh,siswa dinilai lebih
mampu lebih cenderung menerima kesempatan belajar berkualitas lebih tinggi
daripada siswa yang dinilai kurang mampu (Clark & Peterson, 1986; RubieDavies, 2014; Rubie-Davies, Hattie, & Hamilton, 2006; Sharpley & Edgar, 1986).
Selanjutnya, Penilaian guru memiliki implikasi terhadap keputusan penempatan
diprogram atau kelompok kemampuan, retensi kelas, dan akhirnya untuk jalur
akademis masa depan siswa (Begeny, Eckert, Montarello, & Storie, 2008;

Begeny, Krouse, Brown, & Mann, 2011; Francis dkk.,2016; Harlen, 2005; Parsons
& Hallam, 2014; Wiliam & Bartholomew, 2004).
Secara internasional, banyak penelitian berfokus pada penilaian guru
Keselarasan, terutama menyelidiki hubungan antara gurupenilaian dan
pengukuran kinerja siswa. Ulasan tentang iniBadan penelitian telah menunjukkan
kesepakatan yang luas antara penilaiandan standar penilaian rata-rata (r ¼ 0,63,
Südkamp et al.,2012), namun relasinya sudah jauh tidak konsisten dengan
lebarkisaran korelasi yang dilaporkan (0,03-0,92; Hoge & Coladarci,1989;
Südkamp et al., 2012). Südkamp dkk. (2012) mencatat bahwaPenilaian guru
menunjukkan korelasi yang lebih tinggi dengan yang diukur prestasi saat guru
diberi tahu tentang ukuran apapenilaian mereka dibandingkan dengan Korelasi
juga terjadilebih tinggi ketika penilaian dan tindakan ditujukan pada domain
yang samaatau aspek kemampuan. Karakteristik uji lainnya seperti jumlahPoin
pada skala penilaian tidak mempengaruhi tingkat keselarasanantara penilaian
dan prestasi siswa terukur.
Dalam konteks Selandia Baru, penilaian guru secara keseluruhan (OTJs)
diperkenalkan sebagai ukuran pencapaian spesifik di tahun 2010, dan dinilai
terkait dengan standar kurikulum yang diharapkan di Indonesia membaca,
menulis, dan matematika. Penilaian ini biasanya disebut sebagai Standar
Nasional (NS), dan dimaksudkan untuk mencerminkan a Prestasi siswa dalam

kaitannya dengan standar yang diharapkan siswa di tingkat tahun yang sama
secara nasional. Guru diminta untuk pertimbangkan berbagai data, termasuk
pengamatan pembelajaran siswa, belajar percakapan, dan penilaian formal
seperti standar tes prestasi, untuk mencapai keputusan apakah seorang siswa
memenuhi tuntutan kurikulum Selandia Baru (Kementerian Pendidikan, 2011).
Penentuan apakah seorang siswa memenuhi persyaratan standar terserah guru,
tanpa mandat berkenaan dengan mana dari bentuk bukti ini yang digunakan,
atau tingkat pembobotan tipe data tertentu. Namun, penilaiannya harus
dilakukan fokus hanya pada prestasi siswa pada saat itu dan waktu Seharusnya
tidak menyertakan informasi yang tidak relevan seperti siswa perilaku atau
kemampuan potensial yang dirasakan.
Korelasi sempurna tidak mungkin dan bisa dibilang tidak diinginkan Kedua
ukuran tersebut harus digunakan untuk tujuan yang berbeda penilaian sering
berfokus pada aspek spesifik dari siswa

belajar sedangkan penilaian guru harus memperhitungkan a jumlah aspek
pencapaian siswa secara keseluruhan bidang subjek Meskipun demikian,
sementara penelitian sebelumnya telah diselidiki hubungan antara penilaian dan
pencapaian standar, sifat penilaian guru dan apa yang menginformasikan
keputusan ini tetap relatif belum dijelajahi. Pertanyaannya tetap ada apakah

korelasi yang lebih rendah hanya mencerminkan perbedaan sifat dari penilaian,
atau apakah ada yang membangun faktor yang tidak relevan yang
mempengaruhi guru ketika mereka membuat penilaian tentang kinerja siswa
Misalnya, meski tidak ada etnisitas maupun tidak Status kebutuhan khusus harus
mempengaruhi penilaian tentang siswa Prestasi, penelitian sebelumnya telah
menunjukkan bahwa faktor tersebut mungkin memang mempengaruhi penilaian
guru (lihat misalnya, Glock, Krolak- Schwerdt, & Pit-ten Cate, 2015; Martínez,
Stecher, & Borko, 2009; Ready & Wright, 2011). Meskipun perbedaan dalam
penilaian guru yang diharapkan karena ada kesalahan acak dalam semua
penilaian kinerja siswa, perbedaan sistematik berkaitan dengan subkelompok
tertentu akan menyarankan tingkat bias.
Penyelarasan antara tes standar dan penilaian guru mungkin juga
dipengaruhi oleh pendekatan penafsiran yang inheren berbeda (Hattie & Brown,
2003; Hattie et al., 2003). Standar Tes secara khusus dirancang untuk
memaksimalkan kehandalan dan konsistensi lintas siswa, ruang kelas, sekolah,
dan daerah. Sebaliknya, Guru individu biasanya melakukan evaluasi terhadap
kinerja siswa
dalam kaitannya dengan bukti tingkat lokal (kelas atau sekolah). Itu adalah,
meskipun penilaian guru dapat didefinisikan sebagai kriteria yang ditentukan,
penilaian cenderung dipengaruhi oleh normatif

evaluasi, seperti seberapa baik kinerja masing-masing siswa dalam hubungan
kepada siswa lain di kelas guru (Angoff, 1974).
Meskipun banyak pekerjaan yang menyelidiki sifat – sifat penilaian guru,
sebagian besar penelitian ini telah dilakukan dalam konteks Amerika Utara.
Pengecualian yang penting termasuk
studi sebelumnya oleh Doherty dan Conolly (1985) dan Sharpley dan Edgar
(1986), yang dilakukan di Australia dan Inggris masing, serta penelitian yang
lebih baru dilakukan di Jerman oleh Kaiser, Retelsdorf, Südkamp, dan Möllller
(2013).
Studi saat ini memperluas pekerjaan sebelumnya yang menyelidiki sifat
tersebut penilaian guru dalam beberapa cara. Ini sangat erat sejajar dengan
karya Ready and Wright (2011), namun mengacu pada sampel dari siswa yang
lebih tua (sekitar 9e13 tahun) di kedua membaca
dan menulis. Penelitian Ready and Wright (2011) difokuskan pada taman kanakkanak siswa dan penelitian telah menunjukkan bahwa keselarasan antara
Penilaian guru dan prestasi terukur bisa berbeda di tingkat kelas, menyoroti
kebutuhan untuk studi lebih lanjut dengan
menghormati siswa yang lebih tua (Südkamp et al., 2014). Sebagai tambahan,
guru dalam studi Ready and Wright (2011) tidak memiliki akses ke hasil penilaian
standar siswa, sedangkan guru di
studi saat ini memiliki akses terhadap standar masing-masing siswa hasil

prestasi, dan disarankan oleh Kementerian Selandia Baru Pendidikan bahwa ini
adalah sumber bukti yang bisa jadi ditarik saat membuat penilaian tentang
prestasi siswa. Meta-analisis oleh Südkamp dkk. (2012) menunjukkan bahwa
penelitian belum memeriksa jalan di mana penilaian guru terpengaruh dengan
pengetahuan tentang hasil penilaian standar sebelum membuat a penilaian
holistik tentang prestasi belajar siswa dalam pembelajaran domain. Selanjutnya,
relatif sedikit penelitian yang memanfaatkan data dikumpulkan sebagai bagian
dari rutinitas sekolah reguler. Penelitian saat ini menggunakan

penilaian guru dan hasil pencapaian standar yang terkumpul dalam konteks
kelas yang sebenarnya dimana pengumpulan data tidak ukuran yang dikenakan
untuk sekolah.
Penelitian sebelumnya telah sering berfokus pada hal yang relatif
kecil,sampel siswa yang dilokalkan; ukuran sampel rata-rata 75studi yang
dilaporkan dalam meta-analisis baru-baru ini oleh Südkamp dkk. (2012)adalah
518 siswa Studi saat ini menarik data dari skala besarproyek pengembangan
profesional guru dengan hampir 5000 orangsiswa diwakili dalam membaca, dan
sekitar 12.000 tambahansiswa untuk menulis Karena penilaian guru pada
dasarnya mungkin terjadiuntuk melanggar asumsi statistik kemerdekaan karena
satuguru menentukan penilaian untuk semua siswa di kelasnya,Kami

menggunakan pemodelan linier hierarkis tingkat tiga dalam analisisdengan siswa
bersarang di dalam ruang kelas dan bersarang di dalamnyasekolah. Hal ini
memungkinkan pengelompokkan data yang adadicatat.
Selanjutnya, sebagian besar studi penilaian guru belummenghadiri
perbedaan antar kelompok sehubungan dengan siswakarakteristik. Sejauh mana
karakteristik siswa mempengaruhiPenilaian keseluruhan prestasi guru tetap
sebagian besartidak meyakinkan Karena pentingnya kesempatan pendidikan
yang setara,Ini adalah fokus utama dari studi saat ini.
2. Review literatur penilaian guru
Bagian berikut memberikan ulasan tentang literatur yang adapada penilaian
guru e kesejajaran mereka dengan standarhasil prestasi dan dampak
karakteristik siswa dankomposisi sekolah tentang penilaian ini. Karena
tumpang tindihnyaharapan guru dan penilaian guru, tinjauan dimulaidengan
diskusi singkat tentang masalah ini.
2.1.
Harapan guru dan penilaian guru
Harapan guru dan penilaian guru serupa dalam hal itukeduanya mewakili
perkiraan guru subjektif tentang siswaprestasi. Mereka terutama berbeda
dalam harapan itu biasanyaprediksi tentang prestasi masa depan sementara
penilaian adalah arusperkiraan kinerja seorang siswa Yang terakhir ini

kebanyakandibuat dalam keadaan dimana guru telah mengajar siswauntuk
beberapa waktu dan karena itu dapat memperhitungkan berbagai
informasi.Sebaliknya, ekspektasi guru fokus pada yang diharapkanperbaikan
atau kinerja selama periode waktu yang akan datang, danprediksi
kemungkinan kemajuan akademik seorang siswadaripada penilaian
keterampilan dan pengetahuan mereka saat ini (lihat untukcontoh RubieDavies, Peterson, Sibley, & Rosenthal, 2015).
Südkamp dkk. (2014) menunjukkan bahwa penelitian mempertimbangkan
kelompok
Perbedaan berdasarkan karakteristik siswa sebagian besar terfokus pada
harapan guru bukan penilaian guru. Guru Penelitian harapan telah
menyimpulkan bahwa harapan guru
tentang kemampuan siswa tunduk pada bias yang berhubungan dengan
kemampuan siswa. etnisitas, status sosial ekonomi (SES), jenis kelamin, dan
kebutuhan khusus, dan bahasa Inggris untuk bahasa Speakers of Other
Languages (ESOL) (McKown & Weinstein, 2008; Rubie-Davies et al., 2012;
Südkamp et al., 2012). Namun, penulis di bidang ini telah mencatat bahwa
siswa '
Prestasi sebenarnya sudah di studi sebelumnya sering tidak dikendalikan
untuk, membatasi kekuatan studi semacam itu (Jussim & Harber, 2005; RubieDavies dkk., 2012).


Peneliti harapan guru juga mencatat bahwa bias negatif harapan
cenderung bermasalah karena alasan di luar yang sederhana prasangka.
Dikatakan bahwa ketika guru meremehkan siswa ' Tingkat pencapaian saat ini,
mereka cenderung merencanakan tingkat yang lebih rendah
kesempatan belajar bagi siswa tersebut (Rubie-Davies dkk., 2006). Pada
gilirannya, ini secara langsung mempengaruhi seberapa banyak siswa belajar,
karena peluang belajar diferensial ini terakumulasi waktu dan akhirnya
mengurangi kesempatan hidup siswa (Rubie-Davies,
2014). Penilaian guru tampaknya akan tunduk pada bias serupa, namun
karena penilaian guru lebih sering diformalkan keputusan taruhan tinggi
seperti penempatan siswa dalam kelompok kemampuan atau masuk ke jalur
pendidikan tertentu, konsekuensi dari Setiap bias dalam penilaian ini sangat
serius.
2.2. Penilaian guru dan pengaruh karakteristik siswa
Penelitian yang berfokus pada penilaian guru cenderung untuk fokus lebih
kuat pada tingkat keseluruhan korespondensi antara penilaian guru dan
prestasi siswa terukur, dan kurang
perbedaan dalam penilaian ini untuk kelompok siswa tertentu. Guru Penelitian
penilaian mempertimbangkan pengaruh karakteristik siswa atas penilaian
tersebut tetap tidak meyakinkan. Sebelumnya review dan meta-analisis

menunjukkan kesulitan dengan agregasi dari hasil sebagai informasi tentang
karakteristik siswa telah langka atau dilaporkan secara agregat (mis., Hoge &
Coladarci, 1989; Siap & Wright, 2011; Südkamp et al., 2014). Selanjutnya,
penelitian mengingat karakteristik siswa sering menggunakan penilaian guru
untuk memvalidasi skala penilaian dan ukuran untuk domain tertentu dan
kelompok siswa (misalnya, Lembke, Foegen, Whittaker, &
Hampton, 2008; Li, Pfeiffer, Petscher, Kumtepe, & Mo, 2008; Methe, Hintze, &
Floyd, 2008), bukan untuk memeriksa perbedaan dalam penilaian guru untuk
kelompok pelajar tertentu. Namun, Beberapa karakteristik siswa memerlukan
pemeriksaan dalam hal apakah karakteristik ini menginformasikan atau
mempengaruhi penilaian guru, termasuk gender, etnisitas, latar belakang
sosial ekonomi, dan kebutuhan khusus siswa atau status ESOL.
Martínez dkk. (2009) menemukan bahwa kesenjangan antara minoritas
danKemampuan akademis siswa non-minoritas TK dinilaimenjadi lebih kecil
oleh guru daripada yang disarankan oleh hasil tes standardalam matematika
Penulis menyimpulkan bahwa guru mungkintelah mengkompensasi
ketidakadilan yang dirasakan. Sebaliknya,Ready and Wright (2011)
menyimpulkan bahwa penilaian guru untuksiswa TK dari SES rendah atau latar
belakang minoritasbias negatif dalam domain melek huruf, sedangkan
Feinberg danShapiro (2003) tidak menemukan pengaruh etnisitas siswa

terhadap gurupenilaian.
Penelitian sebelumnya pada umumnya menunjukkan bahwa jenis kelamin
siswatidak berpengaruh signifikan terhadap penilaian guru (Doherty &
Conolly,1985; Hecht & Greenfield, 2002; Helwig, Anderson, & Tindal,
2001;Hoge & Butcher, 1984; Hoge & Coladarci, 1989; Sharpley & Edgar,1986).
Namun, Ready and Wright (2011) menemukan bias negatifdalam penilaian
guru untuk anak laki-laki dalam domain melek huruf, sementaraMartínez dkk.
(2009) menunjukkan bahwa guru menandai anak perempuan lebih tinggi skala
kriteria yang diacu dalam matematika daripada yang disarankan oleh hasil tes
prestasi standar. Penelitian lain telah ditemukan bahwa guru secara tidak
langsung dipengaruhi oleh jenis kelamin siswa saat menilai keterampilan
akademis (Bennett, Gottesman, Rock, & Cerullo, 1993; Beswick, Willms, &
Sloat, 2005). Terutama, persepsi siswa ' Perilaku mempengaruhi penilaian guru
di Amerika Utara ini studi; Anak laki-laki sering dinilai lebih rendah dalam

keterampilan akademis atau melek huruf karena perilaku mereka dianggap
lebih bermasalah dari pada itu dari anak perempuan Beberapa penelitian
menunjukkan bahwa faktor perilaku seperti keterlibatan siswa dan motivasi
dapat mempengaruhi gurupenilaian (Benner & Mistry, 2007; Dompnier, Pansu,
& Bressoux, 2006; Kaiser et al., 2013).

Beberapa penelitian telah meneliti efek bahasa Inggris itupelajar atau
status kebutuhan khusus ada pada penilaian guru, tapiPenelitian sejauh ini
telah menunjukkan hubungan negatif. Hurwitz, Elliott,dan Braden (2007)
berpendapat bahwa guru secara konsisten meremehkankinerja siswa dengan
status kebutuhan khusus,sedangkan Martínez dkk. (2009) menemukan bahwa
guru menandai siswadengan pelajar bahasa Inggris atau status kebutuhan
khusus lebih rendahmatematika daripada hasil tes prestasi standardisarankan
2.3Perbedaan metodologis dalam studi penilaian guru
Seperti yang dijelaskan di bagian sebelumnya, studi tentang penilaian
gurubiasanya
tidak
mempertimbangkan
perbedaan
kelompok
berdasarkankarakteristik
siswa
Dimana
perbedaan
kelompok
telah
terjadidianggap, ukuran tujuan pencapaian siswa milikijarang dipekerjakan
sebagai alat penilaian penilaian guruketidaksesuaian untuk subkelompok
tertentu, sehingga mengabaikan kontroluntuk perbedaan prestasi belajar
siswa antar kelompok tersebut. DiSecara umum, penelitian ini mengikuti
desain dimana guru memilikimenilai kemampuan siswa saat ini dalam skala
yang disediakan oleh para peneliti(misalnya, Kaiser et al., 2013; Ready &
Wright, 2011).
Selain itu, data jarang dikumpulkan dengan cara biasakonteks kelas,
membandingkan antara perbedaan kelompok dipenilaian guru siswa mereka
sendiri. Hal ini penting karenaSaat guru membuat penilaian siswa dalam
eksperimenstudi, deskripsi yang mereka baca bukan murid mereka
sendiri.Oleh karena itu, tidak mungkin untuk menentukan apakah tanggapan
dariGuru dalam penelitian eksperimental akan sama seperti naturalistikstudi
di mana mereka mengenal murid mereka dengan baik dan berinteraksidengan
mereka setiap hari (Rubie-Davies, 2014).
Studi oleh Kaiser dkk. (2013) dan Ready and Wright (2011) menyediakan studi
naturalistik terlengkap yang pernah ada di Indonesia pengaturan kelas yang
sebenarnya Secara total, kita hanya bisa mengidentifikasi tiga studi yang
menggunakan data naturalistik penilaian guru
dalam konteks kelas sambil juga memeriksa standar hasil pencapaian (Kaiser
et al., 2013; Martínez et al., 2009; Ready & Wright, 2011). Kaiser dkk. (2013)
melaporkan tiga
studi yang meneliti hubungan timbal balik antara siswa ' prestasi membaca,
pertunangan, dan penilaian guru. Itu Studi pertama menarik data dari 52 guru
dan 1135 siswa yang mengambil
bagian dalam proyek pengembangan literasi Jerman, sedangkan yang lainnya
Dua studi menggunakan ruang kelas simulasi untuk mengumpulkan
eksperimen data. Studi pertama, yang paling relevan dengan penelitian saat
ini Karena mengumpulkan data di lapangan, ditemukan korelasi sedang r ¼
0,49 antara penilaian guru dan prestasi belajar siswa. Itu Penulis menunjukkan
bahwa tingkat penyelarasan yang rendah bisa membendung dari guru tida
diberitahu tentang ukuran prestasi dengan mana penilaian mereka
dibandingkan. Penelitian ini menggunakan a tes membaca dari studi PIRLS
Jerman dan tanggapan guru terhadap dua skala empat poin berkenaan
dengan kemampuan siswa dalam melek huruf. Demikian, Meskipun guru
mengetahui murid-murid yang mereka tinjau, mereka penilaian dilakukan
sehubungan dengan dua item tertentu prestasi tanpa menggunakan prestasi
standar baru-baru inidata, dan tidak mengetahui hubungannya dengan ukuran

perbandingan.Selain rendahnya korelasi antara penilaian guru dan
aktualPrestasi,
penulis
melaporkan
adanya
pengaruh
keterlibatan
siswatentang penilaian guru terhadap prestasi belajar siswa dan sebaliknya.
ItuStudi tidak menguji perbedaan penilaian siswakarakteristik.
Penelitian oleh Martínez et al. (2009) dan Ready and Wright (2011) keduanya
menggunakan data dari Survei Longitudinal Anak Usia Dini, yang diikuti
22.000 anak di Amerika Serikat dari
TK sampai kelas lima. Martínez dkk. (2009) dianalisis penilaian guru dan
prestasi matematika sedangkan Siap dan Wright (2011) fokus pada domain
melek huruf. Sampel analitik mereka
masing sekitar 10.000 siswa. Martínez dkk. (2009) menyimpulkan bahwa guru
menilai kesenjangan prestasi yang lebih kecil dari pada ditunjukkan dengan
penilaian standar untuk perempuan, minoritas dan siswa dari latar belakang
SES rendah. Mereka berpendapat bahwa ini bisa mencerminkan bias dalam
tes, atau upaya yang disengaja oleh para guru Mengkompensasi kerugian
yang dihadapi oleh kelompok siswa ini. Namun, prestasi tidak dikontrol secara
khusus. Secara langsung Sebaliknya, Ready andWright (2011) dikontrol untuk
siswa terukur prestasi dan menyimpulkan bahwa bias negatif tampaknya jelas.
Meski kira-kira separuh dari perbedaan kelompok tersebut dihitung antara
perbedaan kelompok yang ditunjukkan oleh standar penilaian, perbedaan
yang tersisa ditunjukkan bias sistematis Guru dalam penelitian tersebut telah
melebih-lebihkan jumlah anak perempuan kinerja dan meremehkan siswa
Black, Asia, dan Hispanik, dan terutama siswa dari latar belakang
sosioekonomi rendah (lebih dari setengah standar deviasi) dalam penilaian
mereka. Itu Penulis menunjukkan kekhawatiran bahwa hasil penelitian mereka
disarankan secara sistematis bias antar guru tentang pelajar yang sudah
terpinggirkan, berpotensi memperburuk disparitas yang ada.
2.4. Penilaian guru, kelas, dan efek komposisi sekolah
Penilaian guru dilakukan dalam konteks individu ruang kelas bersarang di
sekolah. Martínez dkk. (2009) dan Siap dan Wright (2011) mempertimbangkan
nestedness ini dengan menggunakan
pemodelan linier hierarkis dan keduanya menemukan variasi yang tinggi
antara ruang kelas dan sedikit variasi antar sekolah. Sedangkan Martínez dkk.
(2009) memeriksa keseluruhan perbedaan antara ruang kelas berkenaan
dengan praktik guru, Ready and Wright (2011) menggunakan variabel kelas
dan tingkat sekolah yang berbeda di Berkenaan dengan karakteristik guru dan
siswa. Di kelas tingkat, variabel termasuk komposisi kelas (mis., kelas SES
rata-rata dan kemampuan melek huruf, dan proporsi minoritas yang tinggi)
dan karakteristik guru (misalnya, etnis guru, pencapaian pendidikan, dan
pengalaman). Ready and Wright (2011) menyimpulkan itu
komposisi kelas memiliki pengaruh yang lebih kuat terhadap penilaian guru
daripada karakteristik guru. Guru dalam pencapaian yang lebih tinggi dan
Kelas SES yang lebih tinggi melebih-lebihkan kemampuan melek huruf
siswa,bahkan setelah mengendalikan SES tingkat anak dan pencapaian yang
diukur, dan meremehkan keterampilan siswa dalam pencapaian yang lebih
rendah dan
ruang kelas sosioekonomi. Sebaliknya, guru Karakteristik tidak terkait dengan
tingkat keselarasan antara penilaian guru dan prestasi terukur sekali penulis
dikendalikan untuk karakteristik siswa, kecuali untuk guru pemula yang
cenderung melebih-lebihkan kemampuan siswa. Langkah tingkat sekolah
termasuk SES sekolah rata-rata, lokasi sekolah (misalnya perkotaan,
pedesaan), sektor sekolah (misalnya, swasta, publik), dan ukuran sekolah.
Siap dan Wright (2011) menemukan bahwa guru di sekolah perkotaan

cenderung meremehkan kemampuan siswa, sedangkan guru di sekolah kecil
cenderung melebih-lebihkan kemampuan melek huruf siswa..
Sebagai kesimpulan, telah diperdebatkan bahwa penilaian guru
memungkinkan
Untuk pemahaman yang lebih holistik tentang prestasi belajar siswa, sejak
interaksi sehari-hari guru dengan siswa memberi mereka a Gambaran yang
lebih kaya dari apa yang siswa tahu dan bisa lakukan selain tes sendiri
(Chamberlain, 2010; Südkamp et al., 2014). Namun, sebelumnya
penelitian menunjukkan bahwa penilaian guru mungkin bias dasar
karakteristik siswa dan dipengaruhi oleh kelas dan konteks sekolah. Sedikit
penelitian telah memeriksa penilaian guru dalam pengaturan naturalistik (lihat
misalnya, Hopkins, George, & Williams, 1985; Meisels, Bickel, Nicholson, Xue,
& Atkins-Burnett, 2001), dan bahkan penelitian lebih sedikit telah
mempertimbangkan siswa yang spesifik karakteristik kelompok, kelas, dan
faktor tingkat sekolah dalam apengaturan naturalistik (lihat Ready & Wright,
2011). Bias sistematik seperti yang diisyaratkan oleh Ready and Wright
(2011), bisa berfungsi memperburuk dan mengabadikan kesenjangan
pencapaian, bertentangan dengan gagasan tentang persamaan kesempatan
(de Boer, Bosker, & van derWerf,2010). Namun, penelitian Ready and Wright
(2011) difokuskan siswa TK dan penelitian telah menunjukkan bahwa
keselarasan antara penilaian guru dan prestasi terukur bisa berbeda di tingkat
kelas, menyoroti kebutuhan untuk studi lebih lanjut dengan
menghormati siswa yang lebih tua (Südkamp et al., 2014).\
3. Penelitian saat ini
Bagian berikut memberikan detail latar belakang tentang NewKonteks dan
proyek dari mana data diperoleh,penggunaan penilaian guru dalam konteks
ini, dan jugadeskripsi tujuan dan tujuan penelitian ini.
3.1. Konteks Selandia Baru
Siswa di Selandia Baru menghadiri sekolah dasar dari tahun 1e8 (~ 5e13
tahun), sedangkan sekolah menengah diperuntukkan bagi siswa di Indonesia
Tahun 9e13. Sekolah dan guru Selandia Baru sangat otonom relatif terhadap
sistem pendidikan secara global (Hanushek, Link, & Woessmann, 2013; Wylie,
Cosslett, & Burgon, 2016). Sejak tahun 1989, Masing-masing sekolah telah
mandiri, mengelola sendiri administrasi unit. Setiap sekolah dikelola oleh
dewan pengawas yang dibuat Sebagian besar didominasi oleh orang tua,
anggota staf sekolah, saat ini siswa (di tingkat sekolah menengah), serta
kepala sekolah. Dewan dipilih setiap tiga tahun, dan bertanggung jawab atas
keseluruhan berjalan dan kinerja sekolah. Nomor staf (termasuk pembantu
guru dan staf pendidikan khusus) ditentukan secara nasional, dengan dana
yang dialokasikan oleh Kementerian Pendidikan, namun masing-masing dewan
bertanggung
jawab
secara
individu
untuk
mempekerjakan
staf,
mengalokasikan dana operasional dan memastikan anggaran dipenuhi (Wylie
et al., 2016). Sekolah menggunakan kurikulum nasional yang menyediakan
kerangka kerja umum bidang pembelajaran, nilai, dan kunci Kompetensi tapi
sekolah memiliki fleksibilitas untuk merancang dan menyesuaikan diri
kurikulum untuk komunitas sekolah mereka.
Populasi Selandia Baru sekitar 4,5 juta, dengan85% populasi berada di daerah
perkotaan. Usia sekolahpopulasi terdiri dari 52% Selandia Baru (NZ) Eropa,
24%M? Aori, 10% Pasifika, dan 11% siswa Asia (Statistik Selandia Baru,2016).
M? Aori adalah kelompok pribumi; Pasifika adalah mereka yang memilikiNenek
moyang Pulau Pasifik (misalnya, Samoa, Tonga, Kepulauan Cook); dan
Asiasiswa berasal dari Asia Utara ke sub-benua India.Sistem pendidikan
Selandia Baru telah digambarkan sebagai tinggikinerja, namun sistem ekuitas
rendah. Sedangkan pencapaian tertinggisiswa berprestasi, dan kinerja rata-

rata relatif tinggi,Data prestasi biasanya menunjukkan disparitas yang besar,
dengan yang khususkelompok semakin banyak terwakili dalam kuartil
terendahdistribusi (OECD, 2005, 2013; Ogle et al., 2003). Baru. Zealand,
disparitas terbesar ada untuk siswa M? Aori dan Pasifika,dan mereka yang
bersekolah dengan ekonomi sosio rendahdaerah tangkapan air
Pengenalan keseluruhan penilaian guru (OTJs) tahun 2010 itu, pura-pura,
dimaksudkan sebagai pergi untuk mengukur dan mudah-mudahan
mengurangi disparitas ini. Kinerja dinilai 'secara holistik' berdasarkan bukti
yang dianggap sesuai untuk setiap siswa oleh siswa guru (Kementerian
Pendidikan, 2010). Sudah cukup banyak komentar untuk dan melawan
kebijakan tersebut, dengan para pendukungnya memperdebatkannya
Penilaian holistik mempertahankan luasnya dalam kurikulum, sementara
lawan meningkatkan kekhawatiran tentang potensi bias dan tidak dapat
diandalkan (Courtney, 2010; Eames, 2010; Departemen Pendidikan, 2011,
2010;
€ OZerk & Whitehead, 2012; Smith, Anderson, & Blanch, 2016; Thrupp, 2013).
Penilaian ini memiliki implikasi penting sekolah siswa Sementara siswa di
Selandia Baru tidak ditahan Kembali, dalam pengelompokan kemampuan
kelas adalah praktik yang mengakar, Meskipun ada penelitian yang
menunjukkan bahwa hal tersebut berkontribusi terhadap pelestarian disparitas
(Schmidt, Burroughs, Zoido, & Houang, 2015; Wilson, Madjar, & McNaughton,
2016). Karena kelompok kemampuan ditentukan Dengan penilaian guru,
penentuan yang andal dan adil adalah
penting. Selain itu, data Standar Nasional gabungan (NS) adalah mditerbitkan
di situs Kementerian Pendidikan Nasional (Kementerian Agama Education,
2016) dan agen media menyediakan NS school league tabel (Fairfax Selandia
Baru Limited, 2012, 2016). Meskipun Pentingnya penilaian ini, penelitian
empiris minimal telah dilakukan untuk menilai sifat-sifat ukuran sampai saat
ini.
3.2. Proyek pembelajaran profesional
Penelitian ini mengacu pada data yang dikumpulkan dalam profesional
nasional yang besar
proyek pembelajaran dan pengembangan, yang disebut Konsorsium untuk
Belajar Profesional (CPL; untuk rincian lengkap lihat cpl.org.nz). Itu Proyek ini
didanai oleh Kementerian Pendidikan Selandia Baru, dan bertujuan untuk
memastikan bahwa pembelajaran profesional dihasilkan terukur keuntungan
dalam prestasi siswa, dengan fokus khusus pada peningkatan keadilan.
Perbaikan dievaluasi dari sisi keuntungan keduanya pencapaian standar dan
hasil OTJ, namun tidak ada fokus untuk memastikan keselarasan hasil standar
dengan OTJs. Sejak baru
Sekolah-sekolah di Zealand adalah pemerintahan sendiri, partisipasi dalam
proyek ini bersifat sukarela, artinya sekolah memilih apakah akan "opt-in".
Karena fokus perbaikan proyek, mayoritas sekolah memilih untuk mengambil
bagian melakukannya dari kebutuhan yang dirasakan sendiri untuk diperbaiki
hasil prestasi siswa Seleksi diri ini menghasilkan overrepresentasi sekolah
dengan profil SES rendah, serta representasi yang berlebihan
siswa Pasifika relatif terhadap siswa nasional Profil. Meskipun ini overrepresentasi, rangkaian lengkap Jenis sekolah berpartisipasi dalam proyek ini.
3.3. Tujuan penelitian ini
Studi saat ini meneliti hubungan antara gurupenilaian dan pencapaian standar
yang dirancang secara psikometriHasil tes membaca dan menulis. Seperti
yang dicatat sebelumnya, iniLangkah-langkah sangat tidak mungkin untuk
diselaraskan dengan sempurna, karena keduanya memilikikesalahan yang
melekat, sedangkan penilaian guru dimaksudkan untuk mengevaluasi

aPrestasi siswa lebih holistik dari satu tes (kementerianPendidikan, 2012).
Menentukan apakah ada yang sistematisperbedaan antara penilaian guru dan
standarisasiNamun, tes prestasi penting karena ada perbedaanakan
menyarankan bukti yang tidak terkait dengan perbedaan prestasi
aktualsedang memainkan peran dalam penilaian guru. Seperti Selandia
Baruguru diwajibkan untuk melaporkan OTJ untuk setiap siswa pada Tahun
1sampai 8 (umur sekitar 5e13 tahun) untuk membaca, menulis,dan
matematika pada akhir setiap tahun (lihat Bagian 4.2.1 secara
lengkaprincian), sistem pendidikan menyediakan konteks naturalistik untuk
mempelajari penilaian guru dan keselarasan mereka dengan standarukuran
prestasi Sekolah-sekolah Selandia Baru juga biasanya digunakanpenilaian
standar, dan guru diberi tahu bahwa penilaian inidapat digunakan untuk
menginformasikan penilaian guru, tapi tidak adapersyaratan untuk
melakukannya
Pertanyaan penelitian menyeluruh adalah apakah adaperbedaan sistematis
dalam penilaian yang dibuat gurupencapaian siswa yang termasuk dalam
kelompok pelajar prioritas,yang tidak dijelaskan oleh perbedaan yang
ditunjukkan oleh standarisasiprestasi. Kelompok pelajar prioritas di Selandia
Baru didefinisikan sebagaiyang secara tradisional terpinggirkan / terlayani di
dalam NewSistem pendidikan Selandia Baru (yaitu, laki-laki, M? Aori dan
Pasifika, siswadengan kebutuhan khusus, dan siswa untuk siapa bahasa
Inggris adalah bahasa kedua merekabahasa (ESOL)). Selain itu, yang menarik
adalah apakah adafaktor kontekstual yang mengurangi atau memperburuk
sistematika apapunperbedaan terdeteksi dalam penilaian guru. Demikian
relasinyaantara penilaian guru dan karakteristik siswadiperiksa dengan
memperhatikan perbedaan standarisasihasil prestasi
Pertanyaan penelitian spesifik yang diteliti dalam penelitian ini adalah
sebagaiberikut:1. Apa korelasi antara hasil pencapaian standardan penilaian
guru terhadap prestasi belajar siswa?2. Setelah memperhitungkan perbedaan
prestasi standar,Ada perbedaan residual dalam penilaian guru siswaPrestasi
yang bervariasi secara sistematis oleh karakteristik siswa(yaitu, jenis kelamin,
etnisitas, status ESOL, dan status kebutuhan khusus)?3. Setelah
memperhitungkan perbedaan prestasi standar,Ada perbedaan residual dalam
penilaian guru siswaPrestasi yang bervariasi secara sistematis oleh faktor
kontekstual (yaitu,komposisi kelas dan prestasi sekolah, etniskomposisi, profil
sosial ekonomi sekolah, ukuran sekolah, danwilayah)?
4. Metode
4.1. Peserta
Penelitian ini menggunakan data prestasi membaca dan menulis dikumpulkan
pada akhir tahun akademik 2012 dan 2013 sebagai bagian dari sebuah proyek
pengembangan profesional skala besar yang sedang berlangsung di seluruh
Selandia Baru Kami memilih semua siswa dari Tahun 4e8 (sekitar 8e13 tahun;
Kelas 3 sampai 7) yang telah berakhir tahun standar prestasi dari subjek yang
sama domain, selain OTJ mereka. OTJs (lihat Bagian 4.2.1 secara lengkap
deskripsi) yang ditentukan pada akhir tahun mewakili guru penilaian setelah
bekerja dengan masing-masing siswa secara lengkap tahun. Data untuk siswa
pada Tahun 1e3 (berusia sekitar 5e8; K sampai
G2) tidak dapat disertakan karena kebanyakan sekolah tidak menyediakannya
data penilaian standar untuk siswa yang lebih muda. Data ditentukan siswa
kelas mana yang masuk, tapi tidak menyediakannya informasi tingkat guru
Sampel akhir untuk membaca terdiri dari 4771 siswa bersarang di dalam 194
ruang kelas yang hadir 44 sekolah, dan untuk menulis, 11.765 siswa
bersarang di dalam 561 ruang kelas di 105 sekolah. Perhatikan bahwa
sebagian besar sekolah

menyediakan data hanya untuk satu domain, sekitar 20% sekolah (n = 26)
memilih untuk menyediakan data untuk membaca dan menulis, mengenalkan
beberapa tumpang tindih di dua sampel. Makanya, datanya tidak sangat
independen Sekolah yang berpendidikan cenderung lebih rendah daerah
tangkapan sosioekonomi dan memiliki kelebihan penyajian Pasifika siswa
dibandingkan dengan populasi pelajar nasional. Tabel 1 menyajikan informasi
demografis untuk bacaan dan menulis sampel secara lebih rinci.
Dalam kedua domain subjek, lebih dari separuh sekolah
Tabel 1Karakteristik demografi tingkat pelajar menurut subjek domain.

(baca: n =28; tulisan: n = 62) terletak di daerah SES rendahm(decile1 rating
1e3), sekitar sepertiga di pertengahan area SES (rating decile 4-7; membaca:
n =12; menulis: n =31), dan relatif sedikit di
zona yang lebih makmur (decile rating 8-0; reading: n =4; writing: n = 12).
Secara geografis,m sekolah yang berpartisipasi terutama berada di Pulau
Utara Selandia Baru (baca: n = 42; menulis:
n =92). Jumlah sekolah yang jauh lebih kecil berasal dari Selatan Pulau (baca:
n =2; tulisan: n =13). Mayoritas penduduknya mtinggal di Pulau Utara (~
75%), dan relatif kurang makmur dibanding Pulau Selatan; 91% sekolah SES
rendah berada di Pulau Utara. Rata-rata rol sekolah sekitar 250 siswa,
meskipun ini sangat bervariasi (baca: M =247,12, SD =239,55; menulis: M =
244.64, SD = 203.11). Rata-rata, adil lebih dari separuh siswa di masingmasing sekolah berasal dari Selandia Baru atau Pasifika turun (baca: 60%;
menulis: 56%), meski angka ini lebih tinggi di wilayah utara. Karena sampel
diambil dari proyek pengembangan profesional di mana sekolah memilih
Berdasarkan penilaian kebutuhan mereka sendiri, sampel lebih banyak
berbobot ke sekolah dengan pencapaian yang rendah dan profil SES. Namun,
keragaman sampel berarti rangkaian lengkap siswa dan sekolah tetap
terwakili.
4.2. Ukuran
4.2.1. Variabel tak bebas
OTJ masuk sebagai variabel dependen. OTJ untuk membaca danSetiap
penulisan dibuat pada skala kurikulum empat poin.Skala ini dimaksudkan
untuk mencerminkan prestasi siswa dalam hubungannyake standar yang
diharapkan dari tingkat nasional mereka secara nasional: jauh di
bawahstandar (dikodekan sebagai 1), di bawah standar (dikodekan sebagai 2),
pada standar(dikodekan sebagai 3), dan diatas standar (dikodekan sebagai 4).
Standarnya adalahselaras dengan kurikulum Selandia Baru. Guru diharapkan
untukTentukan OTJ yang tepat untuk setiap siswa dengan menggunakan
mereka sendiripenilaian profesional yang paling sesuai, namun dilengkapi

dengan saransumber bukti prestasi yang mungkin; sebagai contoh
pengamatan pembelajaran siswa, percakapan dengan siswa,tes kelas, dan
hasil pencapaian standar (KementerianPendidikan, 2011). Dengan demikian,
OTJ adalah pertimbangan yang kompleks yang bisa dibilangmerangkum
kemampuan siswa yang lebih luas daripada yang aukuran prestasi tunggal
bisa menunjukkan. OTJ adalah sebuah KementerianPersyaratan pendidikan
untuk semua sekolah yang bekerja dengan siswa di IndonesiaTahun 1e8 (5e13
tahun), dan dilakukan setiap akhir tahunsekolah. Sayangnya belum ada
penelitian yang dilakukanmenyelidiki keandalan atau validitas OTJs, jadi
metrik ini tidaktersedia.
4.2.2. Nilai pencapaian standar
Sebagian besar sekolah di proyek pengembangan profesional guru melakukan
uji prestasi standar menjelang akhir tahun tahun sekolah, dekat saat OTJ
dibuat. Umumnya, guru memiliki akses terhadap hasil tes ini sebelum
menentukan OTJ yang sesuai untuk setiap siswa. Sekolah memilih untuk
menggunakan keduanya Alat Penilaian untuk Pengajaran dan Pembelajaran (easTTle) atau Tes Prestasi Progresif (PAT). Kedua tes ini dibangun khusus untuk
konteks pendidikan Selandia Baru menggunakan teori item-response (Brown,
2013; Darr, McDowall, Ferral, Twist, & Watson, 2008; Darr, Neill, Stephanou, &
Ferral, 2006). Penggunaan teori respon item memastikan pencapaian itu
diukur pada skala umum terlepas dari item tertentu yang digunakan dalam
setiap tes Namun, sementara ini memastikan kesetaraan Berbagai bentuk tes
yang sama, tidak harus mengikuti itu PAT dan e-asTTle setara. Oleh karena itu,
keselarasan antara OTJ dan setiap tes dinilai secara terpisah untuk
menentukan apakah relasinya berbeda. Tes ini sama-sama direferensikan
(memungkinkan perbandingan terhadap harapan kurikulum untuk siswa di
setiap tingkat tahun) dan referensi norma (memungkinkan perbandingan
terhadap prestasi khas nasional). Keandalan dari easTTle dilaporkan menjadi
¼ 0,96 (Kementerian Pendidikan & NZCER, 2012), dan keandalan PAT Reading
Comprehension adalah alfa =0,90 (Darr et al., 2006, 2008).
Setiap tes standar dinilai pada interval seninya sendiriskala umum. Karena
siswa yang lebih tua biasanya diharapkanuntuk mencapai nilai yang lebih
tinggi, norma akhir tahun sekolah untuktingkat masing-masing tahun
dikurangkan dari aktualnyaskor untuk menghilangkan efek maturasi
pengganggu. Untuk standarisasiskor e-asTTle dan PAT untuk membaca dan
menulis, tes siswaSkor relatif terhadap norma dibagi dengan standar sampel
penyimpangan dari tes yang sesuai. Ini menempatkan semua prestasiskor
pada skala yang sama terlepas dari tes yang diberikan.Nilai absolut
kemiringan (baca: 0,25= ¼ 0,04;menulis= 1,06, SE=0,02) dan kurtosis (baca:
0,86, SE = 0,07;menulis: 3,39, SE =0,05) untuk nilai standar di bawah 2dan 7,
masing-masing, dan dengan demikian berada dalam kondisi normalkisaran
yang dapat diterima untuk normalitas (Kim, 2013; Kline, 2005). Namun,karena
uji Kolmogorov-Smirnov menunjukkan signifikan secara statistikpenyimpangan
dari normalitas, rantai Markov Monte Carlo (MCMC)estimasi digunakan untuk
Model Linear Hierarkis (HLMs) kemengurangi kepergian ini (Gill, 2002).
Distribusi miring negatifkemungkinan merupakan cerminan dari representasi
berlebihan desil rendahsekolah dan kelompok etnis minoritas dalam sampel,
seperti kelompok inibiasanya memiliki prestasi yang lebih rendah (Hattie,
2008).
4.2.3. Karakteristik siswa
Karakteristik tingkat siswa adalah kode dummy dan digabungkandi HLM
sebagai prediktor Level 1. Etnik dikodekan denganSelandia Baru Eropa
sebagai rujukan; dan M? aori (asliSelandia Baru), Pasifika (Kepulauan Pasifik),
dan "lainnya"etnis (mis., Asia, Timur Tengah, Amerika Latin, dan Afrika)sebagai

kelompok
pembanding.
Variabel
demografis
lainnya
dikodekan
sebagaivariabel dummy biner, termasuk gender siswa (pria = 0,betina= 1),
status ESOL (tidak ada =0, ya =1), dan status kebutuhan khusus(tidak ada
=0, ya = 1).
4.2.4. Karakteristik kelas
Komposisi pencapaian kelas, diukur dengan menggunakanRata-rata
pencapaian standar siswa di setiap kelas,diperiksa sebagai variabel Level 2.
Sebagai standar tingkat siswaSkor prestasi sudah terstandarisasi di sanatidak
perlu memusatkan ukuran agregat. Kami tidak punyaakses ke data tingkat
kelas lainnya seperti gender guru atauetnisitas
4.2.5. Karakteristik sekolah
Efek kontekstual juga diperiksa dengan memasukkan tingkat sekolah
karakteristik pada Level 3 di HLMs. Karakteristik ini termasuk: pita decile
sekolah (rendah [1-3], pertengahan [4-7] atau tinggi
[8-10] decile); wilayah sekolah (selatan tengah, selatan, atau utara); ukuran
sekolah (jumlah siswa di sekolah roll); itu persentase siswa minoritas yang
menghadiri setiap sekolah ('minoritas'
didefinisikan sebagai siswa yang diidentifikasi sebagai M? aori dan / atau
Pasifika; siswa etnis 'lainnya' tidak disertakan karena biasanya ada tidak ada
kesenjangan prestasi antara kelompok ini dan Selandia Baru Eropa; Satherley,
2006); dan komposisi prestasi sekolah (rata-rata pencapaian standar sekolah).
Decile band dan Wilayah sekolah dimasukkan ke dalam model sebagai
dummycoded polytomous variabel dengan cara yang sama seperti yang
dijelaskan untuk etnisitas, dengan desil rendah dan wilayah Utara sebagai
kelompok referensi. Ini kelompok dipilih sebagai referensi karena keduanya
mewakili proporsi terbesar siswa. Ukuran sekolah dan persentase minoritas
adalah grand-mean berpusat untuk meningkatkan interpretability, tapi
mempertahankan skala yang sama (Kreft, de Leeuw, & Aiken, 1995). Sekolah
Komposisi prestasi tidak terpusat sebagai standar tingkat siswa Skor prestasi
sudah terstandarisasi
4.3. Pendekatan analitik
Kami menggunakan HLM tingkat tiga (Raudenbush & Bryk, 2002;Woltman,
Feldstain, MacKay, & Rocchi, 2012), dengan siswa bersarangdi ruang kelas
bersarang di sekolah. Model ini diperhitungkanpengelompokan dalam data
dan diperlukan karena OTJ dibuat olehguru kelas dan dengan demikian dapat
bervariasi dalam interpretasiruang kelas (Ready & Wright, 2011). Pemodelan
linier hierarkis adalah perpanjangan regresi konvensional, dan oleh karena itu
diperkirakansejauh mana variabel prediktor berhubungan dengan hasil
diferensial.Seperti halnya regresi, model ini membangun hubungan antara
keduanyavariabel dan tidak bisa menjelaskan kausalitas. HLM ituDiperkirakan
menggunakan MLwiN 2,26 dengan estimasi MCMC, karena MCMCcenderung
mengungguli metode kemungkinan (mis., kemungkinan maksimum)ketika
data tidak normal (Gill, 2002).Kami melakukan HLM terpisah untuk setiap titik
waktu untuk membacadan menulis (yaitu, Membaca 2012, 2013; Menulis
2012; dan Menulis2013). Setiap model dibangun dengan cara yang sama.
Pertama, tanpa syaratmodel ditentukan sebagai:
Yijk ¼ g000 þ u00k þ r0jk þ eijk

dimana Y adalah OTJ untuk siswa saya di kelas j sekolah k, g000 adalahgrand
mean, u00k adalah varians di tingkat sekolah, r0jk variannyadi tingkat kelas,
dan eijk varians di tingkat siswa. ItuModel tanpa syarat memungkinkan
pembagian varians, yang menyediakanperkiraan tingkat varians pada masingmasing tingkat di dalammodel. Jika model tanpa syarat menunjukkan varians
yang tidak signifikanpada tingkat yang lebih tinggi dalam hirarki yang
ditentukan, konvensionalregresi mungkin cukup, meskipun beberapa penulis

berpendapat hirarkiharus ditentukan bahkan untuk tingkat pengelompokan
yang rendah (mis.,Dorman, 2008).
Selanjutnya, nilai pencapaian standar ditambahkan sebagai Level 1 prediktor
untuk memperhitungkan prestasi belajar siswa yang diukur dengan a tes
standar Setelah itu, model dibangun secara iteratif; prediktor siswa, kelas, dan
sekolah diperiksa Secara terpisah, maka masuk dalam model lengkap, untuk
diselidiki variabel yang menjelaskan sejumlah besar varians
dalam OTJ setelah pencapaian standar dicatat. Faktor dapat dimasukkan
hanya memungkinkan mencegat istilah bervariasi pada masing-masing
tingkat, atau lereng individu. Ini membuat akal teoritis untuk
memungkinkannya hubungan antara pencapaian standar dan OTJs bervariasi
ruang kelas jadi ini diselidiki. Efek interaksi juga terjadi dieksplorasi untuk
menentukan apakah perbedaan digabungkan Bagi siswa yang berpendidikan
lebih dari satu prioritas kelompok, seperti Pasifika yang juga pelajar bahasa
Inggris. Perkiraan parameter dilaporkan dalam hal standar deviasi unit (SDU).
Perhatikan bahwa interpretasi perbedaan SDU serupa dengan Ukuran efek
Cohen (1988), yang keduanya memberikan indikator Perbedaan dalam hal
standar deviasi. Namun, Cohen's d adalah biasanya dihitung sebagai
perbandingan bivariat satu tingkat, jadi
Besarnya perbedaan SDU dalam kerangka bertingkat cenderung lebih kecil
dan perlu ditafsirkan dengan kesadaran akan apa yang dimilikinya telah
diperhitungkan.
5. Hasil
Dalam analisis awal kami untuk membaca dan menulis, kami
membangunnyamodel terpisah untuk setiap tahap pengumpulan (2012 atau
2013) danalat standar (e-asTTle atau PAT). Tidak ada perbedaan yang
signifikandalam
perkiraan
parameter
di
seluruh
model,
jadi
datanyadigabungkan menjadi kumpulan data pembacaan tunggal dan satu
tulisanDataset, kemudian dianalisis ulang dengan menggunakan pendekatan
yang sama untuk disederhanakaninterpretasi. Hasil dari model ini disajikan di
bawah ini.
5.1. Partisi varians
Dalam model tanpa syarat (lihat Tabel 2), sebagian besarVariabilitas dalam
OTJs berada pada tingkat siswa untuk membaca (75%)dan menulis (78%). Hal
ini tidak mengherankan mengingat akademik siswaKemampuan itu belum
diperhitungkan. Sisa darivarians dipartisi cukup merata antara kelas
dantingkat sekolah (12% dan 10%, untuk pembacaan, dan 13% dan
Tabel 2. Variasi dekomposisi dari model tanpa syarat untuk membaca dan
menulis

12%, masing-masing, untuk penulisan). Pengelompokan sedang dan
signifikanPada tingkat kelas dan sekolah menunjukkan kebutuhannyadari HLM
tiga tingkat untuk kedua domain.
5.2. Hasil deskriptif
Statistik deskriptif untuk skor prestasi standar danOTJs ditunjukkan pada Tabel
3. Sebagai nilai tes siswa telah memilikinorma tingkat tahun yang tepat
dikurangkan, dengan hasilnya dibagistandar deviasi dari uji prestasi,

standarisasiSkor prestasi mencerminkan prestasi siswa relatif terhadapnorma
nasional dalam hal SDU.Nilai rata-rata standar untuk membaca danTulisan
keduanya berada di bawah norma nasional, dengan bacaansampel lebih jauh
dari norma nasional (0,42 SDU; setara dengankira-kira satu tahun akademik)
daripada sampel tulisan (0.19)SDU). OTJ rata-rata untuk kedua domain berada
di antara 'di bawah ini

Tabel 3Statistik deskriptif dan korelasi pencapaian standar dan OTJ olehdomain
standar '(kode 2) dan' standar '(dikodekan 3; M = 2.69 dalam membaca;M
=2.57 secara tertulis), namun lebih rendah untuk menulis daripada untuk
membaca,menunjukkan tingkat ketidaksesuaian antara standartindakan dan
OTJs. Artinya, guru dianggap sedang membacaprestasi menjadi lebih dekat
dengan standar dibanding prestasi menulis,sedangkan hasil uji standar
menunjukkan sebaliknya.Korelasi antara dua ukuran pencapaian itusedikit
lebih besar dari 0,70 untuk membaca dan menulis, keduanya secara
keseluruhandi tingkat siswa, dan rata-rata di sekolah. Namun,ada banyak
variasi di sekolah; tingkat sekolah korelasiberkisar antara 0.50 dan 0.94 untuk
membaca, dan? 0,07dan 0,94 untuk menulis. Untuk membaca dan menulis,
korelasinyanegatif di dua sekolah. Korelasi negatif mengejutkankarena kedua
langkah tersebut pada dasarnya harus menilai hal yang samadomain; Terlepas
dari kenyataan tindakan tersebut menilai aspek yang berbedaprestasi.
5.3. Prestasi standar
Skor prestasi standar ditambahkan ke yang tidak bersyaratmodel sebagai
prediktor Tingkat 1. Seperti yang ditunjukkan pada 'StandarisasiKolom prestasi
di Tabel 4, ada yang positif dan statistikhubungan yang signifikan antara
prestasi standardan OTJ, sehingga rata-rata kenaikan satu standar
deviasidalam skor pencapaian standar dikaitkan dengan kenaikan 0,61di OTJ
untuk membaca, dan 0,67 kenaikan OTJ untuk tulisan. ItuPencantuman
pencapaian standar individu menjelaskan setengah darivarians tingkat siswa
dalam OTJs secara tertulis, dan 42% darivarians tingkat siswa dalam
membaca. Ini juga mengurangi banyakvarians di tingkat sekolah untuk
menulis (43%) dan di kelaslevel untuk membaca (59%). Dari varians residual,
proporsinya pada

setiap tingkat tetap stabil, dengan 72-75% varianspada tingkat siswa di setiap
model. Membiarkan standarPrestasi lereng bervariasi tidak secara signifikan
memperbaiki model fitmenunjukkan hubungan yang cukup konsisten antara
standarprestasi dan OTJ di seluruh kelas (p> 0,05 untuk membaca
danpenulisan); Dengan demikian, kemiringan ini diperkirakan sebagai efek
tetap pada semuaanalisis selanjutnya
5.4. Karakteristik siswa
Di tingkat siswa, kami mengeksplorasi apakah ada yang sistematis Perbedaan
dalam OTJ yang ditugaskan kepada peserta didik prioritas, setelah
mengendalikan perbedaan nilai prestasi standar. Sebagai ditunjukkan dalam
kolom 'Karakteristik Siswa' pada Tabel 4, ini Karakteristik siswa adalah
prediktor signifikan dari OTJ bahkan setelah perbedaan dalam pencapaian
standar dipertanggungjawabkan. Untuk mengukur besarnya relatif di bawah
atau yang terlalu tinggi
prestasi standar, ukuran efek dalam SDU berdasarkan HLM Perkiraan
parameter disediakan dalam tanda kurung. Khusus untuk baik membaca dan
menulis, bahkan saat prestasi standar
Bukti itu sama, betina biasanya diterima secara signifikan OTJ yang lebih
tinggi daripada laki-laki (SDU ¼ 0,06 untuk membaca; SDU ¼ 0,11 untuk
menulis), M? aori (SDU ¼? 0.10 untuk membaca; SDU ¼? 0,09 untuk menulis)
dan Pasifika (SDU ¼? 0,16 untuk membaca; SDU ¼? 0,10 untuk
menulis) siswa menerima OTJ secara signifikan lebih rendah daripada NZ
Eropa siswa, dan siswa ESOL (SDU ¼? 0,14 untuk membaca; SDU ¼? 0,13
untuk menulis) dan mereka yang memiliki kebutuhan khusus (SDU ¼? 0,57
untuk membaca; SDU ¼? 0,26 untuk menulis) diterima OTJ yang jauh lebih
rendah daripada yang tidak termasuk dalam kategori ini. Gelar Perbedaan
biasanya serupa untuk membaca dan menulis, kecuali untuk siswa dengan
kebutuhan khusus, dimana perbedaannya jauh lebih besar dalam membaca
daripada untuk menulis. Banyak siswa termasuk dalam lebih dari satu
kelompok pelajar ini, jadi kami juga mengeksplorasi efek interaksi antar
kelompok ini. Untuk Contohnya, sedangkan OTJ biasanya lebih rendah untuk
anak laki-laki dan M? Aori Dari yang disarankan oleh hasil prestasi standar,
kita ingin menentukan apakah menjadi seorang anak laki-laki M? aori malah
menghasilkan genangan perbedaan yang lebih besar Kami tidak menemukan
interaksi yang signifikan antara keduanya gender dan etnis untuk kedua
domain. Interaksi termasuk ESOL atau status kebutuhan khusus tidak bisa
dieksplorasi karena secara komparatif beberapa siswa diidentifikasi berada
dalam kelompok pelajar ini bila digambarkan oleh jenis kelamin atau etnisitas.
5.5. Komposisi prestasi

Komposisi prestasi kelas dan sekolah ditambahkan ke dalam model yang berisi
standar prestasi dan siswa karakteristik untuk menguji apakah prestasi ratarata di kelas dan sekolah menjelaskan varians tambahan dalam OTJs. Seperti
yang ditunjukkan pada dua kolom paling kanan dari Tabel 4, komposisi
prestasi sekolah memiliki hubungan terbalik yang signifikan dengan OTJ; yaitu,
setelah mengendalikan prestasi standar dan siswa individual
Karakteristik, bila prestasi rata-rata sekolah itu Relatif tinggi, OTJ yang dibuat
di seko