menilai belajar melalui standar pengujia

menilai
belajar melalui
standar
pengujian
APA JENIS TES DISTANDARISASI
ADA?
Tes standar yang diberikan kepada sampel besar siswa (misalnya, nasional) di bawah
kondisi yang sama, termasuk instruksi tes, lingkungan pengujian, jumlah
waktu untuk mengikuti tes, dan prosedur penilaian. Tidak seperti tes buatan guru atau tes
bank termasuk dalam buku pelajaran, tes standar hanya dapat dibeli dari penerbit uji
oleh orang-orang yang memenuhi syarat untuk menggunakannya. Tes standar merupakan bagian yang
tidak terpisahkan dari
Sistem pendidikan AS dan dapat melayani fungsi yang berbeda. Salah satu fungsi penting adalah untuk
memberikan penilaian yang obyektif prestasi siswa di seluruh negeri sehingga keputusan
pada seleksi dan penempatan dalam program pendidikan tertentu dapat dibuat
(Brennan, Kim, Wenz-Gross, & Siperstein, 2001). Ketika keputusan ini didasarkan pada
skor dirancang dengan baik tes standar, mereka adil dan dibenarkan karena semua
siswa mengikuti tes yang sama di bawah kondisi yang sama. Misalnya, penerimaan perguruan tinggi
petugas dapat membuat keputusan dengan menggunakan uji Assesment (SAT)
dan American College Testing Program (ACT) puluhan siswa yang mungkin datang
dari berbagai latar belakang, daerah, dan sekolah tinggi di negara ini.

Fungsi penting lainnya dari tes prestasi standar adalah untuk memberikan informasi
tentang efektivitas sekolah kepada orang tua, anggota dewan sekolah, dan negara bagian dan federal
pejabat (Linn & Miller, 2005). Semua 50 negara memiliki penilaian standar tahunan
prestasi siswa yang bertujuan untuk menentukan apakah siswa dipromosikan ke
kelas, apakah guru dan kepala sekolah menerima imbalan keuangan atau penurunan pangkat,
dan apakah sekolah menerima dukungan finansial dari pemerintah negara bagian atau federal. Karena

hasil tes ini digunakan untuk menahan para siswa, guru, dan administrator sekolah
jawab atas prestasi dan dapat mengakibatkan konsekuensi serius, mereka
biasanya disebut tes berisiko tinggi.
Hasil tes standar juga memiliki fungsi evaluasi, seperti membantu mengidentifikasi
daerah yang perlu perbaikan atau menilai keberhasilan program pendidikan tertentu
(Hopkins, 1998; Schmoker, 1999). Sebagai contoh, sebuah distrik sekolah di Pennsylvania
menerapkan metode berbasis penyelidikan baru untuk membantu sekolah menengah siswa
belajar ilmu
tahun ini. Distrik sekolah dapat membandingkan nilai tes standar dari terakhir

tahun dan tahun ini untuk menentukan perubahan dalam prestasi siswa. Namun, ingat
dari Bab 12 yang standar tes memberikan informasi hanya parsial untuk mengevaluasi
mengajar efektivitas. Oleh karena itu, hasil tes perlu dipertimbangkan dalam hubungannya

dengan bentuk-bentuk penilaian kelas.
Akhirnya, tes standar dapat memiliki fungsi diagnostik, yang terdiri dari identifikasi
kekuatan dan kelemahan siswa dalam bidang konten tertentu (Popham, 2005).
Seorang mahasiswa yang tidak melakukan seperti yang diharapkan mungkin diberikan baterai
standar
tes untuk menentukan apakah ia / dia memiliki ketidakmampuan belajar atau exceptionality lain.
dalam
Pada bagian berikutnya, kita meninjau jenis yang paling umum dari tes standar yang digunakan
dalam
sekolah, termasuk bakat, prestasi, diagnostik, dan tes kesiapan.

Tes aptitude
Bakat adalah kemampuan dalam bidang domain tertentu yang berkembang dari waktu ke waktu. Tes
bakat adalah
dirancang untuk menilai kemampuan atau keterampilan siswa dan digunakan untuk memprediksi
prestasi akademik di masa depan
dalam domain diuji. Tes bakat khusus meliputi tes bakat musik,
pemahaman mekanik, keterampilan kognitif (yaitu, pemahaman, penalaran) serta
Tes Differential Aptitude (Bennett, Seashore, & Wesman, 1984), yang dirancang untuk mengukur
siswa SMA dan orang dewasa 'bakat untuk berhasil dalam bidang profesional tertentu.

Tes bakat yang paling umum diberikan dalam sekolah tes kecerdasan, yang
Dianggap tes bakat umum untuk belajar di sekolah. Misalnya, setelah mencoba yang berbeda
strategi prereferral, Mr Madon menyimpulkan bahwa satu-satunya cara untuk menjaga Juana ontask
adalah untuk memberikan kegiatan pembelajaran yang jauh melampaui tingkat kelas lima khas.
Dalam konsultasi dengan tim multidisiplin, keputusan dibuat untuk mengelola kecerdasan
tes untuk memeriksa kemungkinan bahwa Juana dapat berbakat. Juana diterima sangat tinggi
skor di semua bidang tes, menunjukkan bahwa potensi akademik nya bisa lebih baik dilayani
oleh gifted program sekolah.
Tes kecerdasan dapat diberikan baik secara individu maupun kelompok. individu
tes kecerdasan dikelola dan ditafsirkan oleh psikolog terlatih. contoh
dari tes kecerdasan individu adalah Scales Stanford-Binet Intelligence
(Thorndike, Hagen, & Sattler, 1986), yang dapat digunakan dengan anak-anak berumur dua
tahun dan sampai dewasa. Contoh lain adalah serangkaian tes yang dikembangkan oleh
Wechsler (1974, 1991), yang meliputi skala yang berbeda untuk rentang usia yang berbeda:
Wechsler Adult Intelligence Scale (WAIS III), Skala Wechsler Intelligence untuk
Anak-anak (WISC III), dan Wechsler Preschool dan Skala Primer Intelijen

(WPPSI). Skala Wechsler menghasilkan skor keseluruhan dan skor verbal dan kinerja.
Gambar 13.1 menunjukkan contoh barang dari tes Wechsler.
Tes kecerdasan lain individu adalah Baterai Kaufman Assessment untuk

Anak-anak (Kaufman & Kaufman, 1983), Kemampuan Differential Timbangan (DAS-II), dan
Potensi Perangkat Penilaian Pembelajaran (LPAD, Feuerstein, 1979), yang dirancang untuk menilai
perbedaan antara kapasitas siswa untuk belajar dan kemampuan maju mereka.
Tes kecerdasan kelompok yang lebih praktis daripada tes kecerdasan individual
karena mereka dirancang untuk menilai beberapa siswa secara bersamaan dalam beberapa jam
dan administrasi tidak perlu dilakukan oleh psikolog terlatih. Namun,
karena mereka cenderung tidak seakurat tes kecerdasan individual, beberapa negara melakukan
tidak mengurus mereka. Contoh tes kecerdasan kelompok adalah Uji Henmon-Nelson
dari Kemampuan Mental dan Kemampuan Otis-Lennon Sekolah Uji (OLSAT). ingat dari
Tinggi Stakes Tes
Tes yang memberikan hasil yang dapat
digunakan untuk menyimpan siswa, guru, dan
administrator sekolah bertanggung jawab
untuk berprestasi dan yang mungkin
Hasil di Tes consequencesAptitude serius
Bakat adalah kemampuan dalam bidang domain tertentu yang berkembang dari waktu ke waktu. Tes
bakat adalah
dirancang untuk menilai kemampuan atau keterampilan siswa dan digunakan untuk memprediksi
prestasi akademik di masa depan
dalam domain diuji. Tes bakat khusus meliputi tes bakat musik,

pemahaman mekanik, keterampilan kognitif (yaitu, pemahaman, penalaran) serta
Tes Differential Aptitude (Bennett, Seashore, & Wesman, 1984), yang dirancang untuk mengukur
siswa SMA dan orang dewasa 'bakat untuk berhasil dalam bidang profesional tertentu.
Tes bakat yang paling umum diberikan dalam sekolah tes kecerdasan, yang
Dianggap tes bakat umum untuk belajar di sekolah. Misalnya, setelah mencoba yang berbeda
strategi prereferral, Mr Madon menyimpulkan bahwa satu-satunya cara untuk menjaga Juana ontask
adalah untuk memberikan kegiatan pembelajaran yang jauh melampaui tingkat kelas lima khas.
Dalam konsultasi dengan tim multidisiplin, keputusan dibuat untuk mengelola kecerdasan
tes untuk memeriksa kemungkinan bahwa Juana dapat berbakat. Juana diterima sangat tinggi
skor di semua bidang tes, menunjukkan bahwa potensi akademik nya bisa lebih baik dilayani
oleh gifted program sekolah.
Tes kecerdasan dapat diberikan baik secara individu maupun kelompok. individu
tes kecerdasan dikelola dan ditafsirkan oleh psikolog terlatih. contoh
dari tes kecerdasan individu adalah Scales Stanford-Binet Intelligence
(Thorndike, Hagen, & Sattler, 1986), yang dapat digunakan dengan anak-anak berumur dua
tahun dan sampai dewasa. Contoh lain adalah serangkaian tes yang dikembangkan oleh
Wechsler (1974, 1991), yang meliputi skala yang berbeda untuk rentang usia yang berbeda:
Wechsler Adult Intelligence Scale (WAIS III), Skala Wechsler Intelligence untuk
Anak-anak (WISC III), dan Wechsler Preschool dan Skala Primer Intelijen


(WPPSI). Skala Wechsler menghasilkan skor keseluruhan dan skor verbal dan kinerja.
Gambar 13.1 menunjukkan contoh barang dari tes Wechsler.
Tes kecerdasan lain individu adalah Baterai Kaufman Assessment untuk
Anak-anak (Kaufman & Kaufman, 1983), Kemampuan Differential Timbangan (DAS-II), dan
Potensi Perangkat Penilaian Pembelajaran (LPAD, Feuerstein, 1979), yang dirancang untuk menilai
perbedaan antara kapasitas siswa untuk belajar dan kemampuan maju mereka.
Tes kecerdasan kelompok yang lebih praktis daripada tes kecerdasan individual
karena mereka dirancang untuk menilai beberapa siswa secara bersamaan dalam beberapa jam
dan administrasi tidak perlu dilakukan oleh psikolog terlatih. Namun,
karena mereka cenderung tidak seakurat tes kecerdasan individual, beberapa negara melakukan
tidak mengurus mereka. Contoh tes kecerdasan kelompok adalah Uji Henmon-Nelson
dari Kemampuan Mental dan Kemampuan Otis-Lennon Sekolah Uji (OLSAT). ingat dari
Tinggi Stakes Tes
Tes yang memberikan hasil yang dapat
digunakan untuk menyimpan siswa, guru, dan
administrator sekolah bertanggung jawab
untuk berprestasi dan yang mungkin
Hasil konsekuensi yang serius

Tes prestasi

Tes prestasi dirancang untuk menilai apa yang siswa telah belajar atau keterampilan theyhave menguasai
(Aiken & Groth-Marnat, 2006). Tes prestasi standar dapat membantu
guru mengidentifikasi daerah-daerah tertentu dalam domain akademik (misalnya, matematika,
membaca,
ilmu sosial) di mana siswa perlu perbaikan. Kadang-kadang perbedaan antara
bakat dan tes prestasi tidak jelas. The SAT dapat dianggap bakat atau
tes prestasi, tergantung pada tujuan yang digunakan. Ketika digunakan untuk memprediksi
sukses di perguruan tinggi, itu dianggap sebagai tes bakat. Ketika digunakan untuk mengukur siswa
pengetahuan sebelumnya dalam matematika, kosa kata, dan pemahaman bacaan, ini dianggap sebagai
sebuah
tes prestasi. Misalnya, selama konferensi orang tua akhir-of-tahun, Ms Gibbs
suka berbagi hasil tes prestasi siswa sehingga orang tua dapat lebih memahami
apa pengetahuan dan keterampilan anak mereka telah menguasai selama tahun
dan dalam bidang apa siswa akan perlu untuk meningkatkan selama tahun akademik berikutnya.
Tes prestasi yang tipikal adalah tes mengacu-norma nasional standar, seperti
Terranova Tes Komprehensif Keterampilan Dasar, Pencapaian Tes Metropolitan,
dan Tes Prestasi Stanford (McMillan, 2004).
Karakteristik dari tes prestasi adalah bahwa mereka termasuk baterai subyek untuk menilai
pengetahuan dan keterampilan yang sesuai dengan berbagai mata pelajaran menjadi pada tingkat kelas
yang berbeda. untuk

Misalnya, baterai Stanford untuk kelas enam termasuk subyek untuk membaca, matematika,

bahasa, mendengarkan, ejaan, IPA, IPS, kemampuan belajar, penggunaan informasi, dan pemikiran
keterampilan. Karena perbedaan potensial antara isi dan keterampilan termasuk dalam pencapaian
baterai tes dan mereka yang merupakan bagian dari tujuan pembelajaran guru, itu adalah baik sebuah
ide untuk hati-hati memeriksa seberapa sesuai tes prestasi adalah untuk menilai belajar Anda
tujuan sebelum menggunakan hasil mereka untuk membuat keputusan di kelas.
?
13335
Matrix Penalaran
Contoh Rancangan Barang
Gambar 13.1 Contoh item
dari kecerdasan Wechsler
sisik.
Sumber: Barang Contoh dari
Skala Wechsler Intelligence untuk
Anak-anak, Edisi Keempat (WISC-IV).
Copyright © 2003 NCS Pearson,
Inc Reproduksi dengan izin.
All rights reserved. "Wechsler

Skala Kecerdasan Anak "dan
"WISC" adalah merek dagang, di AS
dan / atau negara lain, dari Pearson
Pendidikan, Inc atau afiliasinya (s).
IQ Skor
Skor yang digunakan untuk menafsirkan kecerdasan
tes.

Selain baterai prestasi, sekolah dapat membeli mata pelajaran tertentu
tes prestasi untuk hampir semua subjek. Namun, jika Anda sedang mempertimbangkan untuk
menggunakan
tersedia secara komersial tes prestasi subjek, pastikan bahwa Anda memeriksa
sesuai antara kurikulum kabupaten dan isi dinilai dengan tes. ingat dari
bab sebelumnya bahwa penilaian hanya berlaku untuk sejauh bahwa mereka mengukur apa
mereka dimaksudkan untuk mengukur.
Pada tahun 1969, pemerintah federal mulai mengelola Penilaian Nasional
Kemajuan Pendidikan (NAEP). Tujuan dari NAEP adalah untuk menilai muda Amerika '
pengetahuan dan keterampilan dalam membaca, menulis, sastra, matematika, IPA, IPS, seni,
kewarganegaraan, dan karir dan pengembangan kerja. Meskipun negara tidak diperlukan
untuk mengelola tes ini, pemerintah federal telah mendorong tes sukarela

keempat, eighth-, dan siswa kedua belas kelas di semua negara dengan harapan bahwa NAEP akan

menjadi penilaian nasional Amerika prestasi siswa. Dibandingkan dengan tahun 1992,
siswa keempat dan kelas delapan menunjukkan sedikit perbaikan dalam membaca dan matematika
skor pada tahun 2007, sedangkan kedua belas anak kelas menunjukkan penurunan dalam membaca dan
kurang dari
seperempat dari mereka dilakukan pada atau di atas tingkat kemahiran dalam matematika (NAEP, 2007).
The NAEP juga memberikan gambaran tentang kesenjangan prestasi dibahas dalam Bab
2 Gambar 13.2 menunjukkan kesenjangan prestasi antara putih dan Afrika-Amerika dan
Keempat Hispanik dan kelas delapan siswa membaca dan matematika selama bertahun-tahun
1990-2007. Seperti dapat dilihat pada gambar, dalam membaca, kesenjangan prestasi antara putih

dan keempat anak kelas Afrika-Amerika lebih kecil pada tahun 2007 daripada di penilaian sebelumnya,
namun kesenjangan putih-Hispanik tidak berbeda pada tahun 2007 dibandingkan dengan tahun 1992
Dalam
matematika, kesenjangan prestasi antara keempat kelas putih dan Afrika-Amerika adalah
lebih kecil pada tahun 2007 dibandingkan tahun 1990, namun kesenjangan putih-Hispanik pada tahun
2007 tidak berbeda dari
bahwa pada tahun 1990 Untuk kedelapan-grader, yang NAEP menunjukkan kesenjangan prestasi yang
signifikan di

membaca pada tahun 2007, matematika kesenjangan yang lebih kecil pada tahun 2007 dibandingkan
tahun 2005 antara putih dan
Mahasiswa Afrika-Amerika, tapi tidak ada perubahan signifikan dalam celah matematika putih-Hispanik.
Selain NAEP, tes prestasi internasional telah digunakan untuk membuat
perbandingan prestasi di berbagai negara. Misalnya, Tren
Internasional Studi Matematika dan Sains (TIMSS) menyediakan data tentang matematika,
membaca, dan ilmu prestasi siswa AS dibandingkan dengan siswa
di negara-negara lain untuk tahun 1995, 1999, 2003, dan 2007 baik pada keempat atau
tingkat kelas delapan atau keduanya. Hasil TIMSS terbaru ditunjukkan pada Gambar 13.3.
• Science. AS keempat-anak kelas hanya mengungguli oleh mahasiswa dari tiga
negara (Cina Taiwan, Jepang, dan Singapura). AS delapan kelas yang
mengungguli oleh mahasiswa dari sembilan negara (termasuk negara-negara Asia,
yang memiliki beberapa nilai tertinggi). Oleh SMA, mahasiswa AS peringkat
bawah rata-rata internasional, dengan siswa dari Swedia, Belanda,
Norwegia, dan Swiss peringkat di antara yang tertinggi.
• Reading. Mahasiswa Amerika melakukannya dengan baik dibandingkan dengan rekan-rekan mereka di
lain
negara selama bertahun-tahun sekolah dasar, tetapi pada akhir SMA
mereka telah jatuh di belakang siswa di banyak negara lain.
• Matematika. Meskipun siswa AS di atas skor rata-rata internasional, delapan
negara mengungguli Amerika Serikat di kelas empat dan empat negara

mengungguli Amerika Serikat di kelas delapan. The peringkat tertinggi
negara dalam matematika adalah Singapura, Jepang, Cina Taiwan, dan Korea
(Gonzales et al., 2004).

Selain negara-negara peringkat berdasarkan kinerja, hasil dari internasional
penilaian seperti TIMSS digunakan untuk membuat kesimpulan mengenai faktor
mempengaruhi prestasi dan belajar di negara-negara yang berpartisipasi dan untuk menyarankan
kebijakan
rekomendasi. Sebagai contoh, telah berpendapat bahwa negara kita secara keseluruhan
kinerja yang lebih rendah pada ilmu pengetahuan, matematika, dan membaca adalah hasil dari siswa
yang lebih rendah
harapan, instruksional cukup dan waktu pekerjaan, waktu yang berlebihan dihabiskan
dengan media, ukuran kelas yang lebih besar, dan pengeluaran sumber daya yang tidak efisien (Ravitch,
1995).
Namun, para ahli menunjukkan beberapa keterbatasan hasil tes internasional, termasuk
berikut (British Columbia Wali Sekolah Dasar, 2008; Ercikan &
Koh, 2005):
• Karakteristik nasional dapat membuat hasil prestasi sulit untuk membandingkan. untuk
Misalnya, jika instruksi membaca dimulai pada usia lima di satu negara dan usia tujuh
lain, hasil pembacaan delapan-year-olds di berbagai negara tidak mungkin
memberikan perbandingan yang adil.
• Hasil sangat dipengaruhi oleh topik yang diajarkan dan di mana.
Siswa dapat tahu banyak tentang topik yang tidak pada tes dan sedikit tentang
topik yang di tes tapi belum diajarkan.
• Tes Internasional tekan pada konten bahwa negara-negara peserta setuju bernilai
pengujian. Hal ini menghasilkan satu ukuran cocok untuk semua ukuran yang tidak dapat disesuaikan
dengan
kurikulum atau standar satu negara.
• Mahasiswa dari negara-negara peserta memiliki budaya yang signifikan dan linguistik
perbedaan yang mungkin menantang reliabilitas, validitas, dan kewajaran tes.
Tes Diagnostik
Pemeriksaan diagnostik ditujukan untuk menilai kebutuhan belajar khusus siswa sehingga
kebutuhan tersebut dapat dipenuhi melalui metode pembelajaran biasa atau khusus. Diagnostik
tes dikelola secara individual oleh para profesional terlatih dan sebagian besar digunakan untuk
tujuan diagnostik dalam membaca dan matematika, terutama di tingkat dasar
(Berninger, Stage, Smith, & Hildebrand, 2001). Contohnya adalah Test of Detroit
Belajar Aptitude (AGS Publishing, 2006), Stanford Diagnostik Reading Uji
(Karlsen & Gardner, 1995), dan Analisis Durrell dari Reading Kesulitan (Durrell &
Catterson, 1980).
Dibandingkan dengan tes prestasi, tes diagnostik mencakup lebih banyak item dan lebih subyek,

memungkinkan para guru untuk melaporkan nilai siswa di daerah yang lebih spesifik (Thorndike,
2005). Sebuah tes diagnostik dalam membaca dapat melaporkan nilai siswa pada kosa kata, membaca
pemahaman, dan surat pengakuan. Sebuah penggunaan yang tepat dari tes diagnostik di
membaca adalah untuk menemukan komponen yang membaca tertentu terganggu pada mahasiswa
yang secara konsisten melakukan di bawah tingkat kelas membaca penilaian pemahaman.
Misalnya, tes membaca diagnostik menunjukkan bahwa Carol (berjuang a
siswa dalam bahasa kelas seni Ms Austen) memiliki rata-rata
membaca kefasihan dan akurasi, pengetahuan kata di atas kelas
tingkat, tetapi membaca pemahaman di bawah tingkat kelas. berdasarkan
hasil tersebut, Ms Austen memutuskan untuk mengajar Carol beberapa
pemahaman-monitoring strategi.
Tes kesiapan
Tes kesiapan sekolah menilai apakah anak-anak telah memperoleh
keterampilan kognitif yang diperlukan untuk berhasil di TK atau kelas satu.
Contohnya adalah Test Kesiapan TK, Test Boehm
dari Konsep Dasar, yang Brigance Inventarisasi Perkembangan Awal,
Kesiapan Gesell Sekolah Test, dan Metropolitan
Kesiapan Test.

Ketika kesiapan nilai tes yang digunakan dalam kombinasi dengan informasi lainnya, mereka
dapat membantu mengidentifikasi keterlambatan perkembangan yang mungkin memerlukan perhatian
segera
(Bracken & Walker, 1997). Di sisi lain, meskipun popularitas, tes kesiapan mereka
telah sangat dikritik karena mereka tidak sangat berkorelasi dengan anak-anak kemudian
prestasi akademik (La Paro & Pianta, 2000; Stipek, 2002).
Menurut banyak ahli, validitas prediktif terbatas tes kesiapan bergantung pada
fakta bahwa sebagian besar dari mereka tidak didasarkan pada teori perkembangan anak dan bahwa
mereka
memiliki bias budaya dan bahasa, yang mungkin menjadi alasan bahwa anak-anak dari berpenghasilan
rendah
keluarga, anak-anak minoritas, dan anak-anak dari rumah di mana bahasa Inggris bukan bahasa pertama
sering mendapatkan skor kesiapan yang lebih rendah (Pusat Nasional untuk Fair dan Open Pengujian,
1991).
Dengan demikian, para ahli menyarankan untuk tidak menggunakan hasil tes ini untuk menunda anakanak resmi
sekolah melainkan untuk mendapatkan informasi tentang bagaimana mengadaptasi kurikulum sekolah
dan lingkungan untuk melayani kebutuhan khusus anak-anak (Farran, 2001; Lidz, 1991).
● CARA MENILAI KUALITAS

UJI DISTANDARISASI
Pada bagian ini kita membahas karakteristik tes standar yang baik. Mirip dengan
penilaian kelas terakhir dalam bab sebelumnya, kualitas yang standar
tes dapat dievaluasi dengan memeriksa nya validitas, reliabilitas, keadilan, dan kepraktisan.
Karena kita sudah dibahas sifat-sifat ini secara rinci, dalam bab ini kita
meninjau mereka hanya sebentar. Selain itu, jika tes standar adalah norma-referenced
(yaitu, nilai siswa yang dibandingkan dengan kelompok norma), kualitas
Tes juga akan tergantung pada karakteristik kelompok uji norma. Mari kita secara singkat
meninjau karakteristik ini.
Keandalan dan Validitas
Dua kualitas pertama bahwa guru harus mengevaluasi untuk memastikan bahwa tes standar
adalah kualitas yang baik adalah kehandalan dan validitas. Ingatlah bahwa tes dapat diandalkan ketika
mereka
konsisten, yaitu, ketika mereka memberikan konsisten, hasil yang stabil untuk setiap siswa. guru
dapat belajar tentang keandalan tes nasional atau negara dibakukan melalui laporan pengujian.
Jika tes standar didistribusikan oleh perusahaan penilaian komersial, tes tersebut
selalu disertai dengan teknik manual yang berisi semacam bukti kehandalan.
Biasanya, uji reliabilitas dilaporkan sebagai koefisien korelasi, yang bisa berkisar
dari 0 ke 1, dengan koefisien yang lebih tinggi, seperti dalam 0.80s atau 0.90s, sedang dicari (Popham,
2009). The SAT, misalnya, memiliki koefisien reliabilitas lebih dari 0,90.
Ingatlah bahwa tes adalah valid ketika mereka mengukur apa yang mereka dimaksudkan untuk
mengukur
dan kesimpulan tentang nilai tes yang akurat. Validitas isi, sejauh mana
tes akurat mengukur pengetahuan dan keterampilan yang merupakan bagian dari tujuan pembelajaran,
adalah kualitas penting dari tes prestasi seperti standar yang diwajibkan pemerintah
tes digunakan untuk tujuan akuntabilitas (Aiken, 2003). Validitas konstruk, sejauh
yang tes akurat mengukur keterampilan atau atribut tertentu, adalah kualitas penting dari
aptitude atau tes diagnostik seperti Intelligence Uji Wechsler untuk Anak-anak atau
Reading Diagnostik Stanford Uji (Karlsen & Gardner, 1995). Akhirnya, tes standar
memiliki validitas prediktif saat mereka mampu memprediksi kinerja masa depan. Jenis
validitas penting bagi tes bakat seperti SAT dan ACT, yang digunakan untuk memprediksi
Keberhasilan siswa di perguruan tinggi, atau sekolah tes kesiapan, yang digunakan untuk memprediksi
apakah anak-anak akan berhasil di TK atau kelas satu.
Kepraktisan dan Keadilan
Karena tes standar biasanya mudah dijalankan dan mencetak gol, kepraktisan
tidak pernah menjadi masalah. Di sisi lain, keprihatinan yang meningkat tentang standar
penilaian adalah bias tes. Ms Kerns mengajarkan matematika sekunder di New Mexico dan tahu

bahwa murid-muridnya yang dipersiapkan dengan baik untuk mengambil NAEP, sehingga dia terkejut
mendengar

banyak dari mereka membuat komentar negatif setelah mengambil ujian. "Tes Itu benar-benar
rumit! "keluh Tracy. "Apakah Anda mendapatkan 'yacht' masalah?" "Tidak, aku tidak tahu
apa yang itu tentang, jadi aku agak melewatkan itu. "jawab Morris. "Aku tahu! Aku tidak bisa
bisa melewati 'batang' hal "menyela Melissa. "Bukankah itu bagian dari tanaman?" Ms
Kerns menyadari bahwa murid-muridnya yang frustrasi bukan karena mereka tidak bisa melakukan
matematika tetapi lebih karena mereka tidak bisa memahami konteks beberapa masalah.
Hidup di padang pasir sepanjang hidup mereka telah mencegah mereka dari mengembangkan bahari
pengetahuan yang diperlukan untuk memecahkan "yacht" masalah. Karena siswa Ms Kerns ini
tidak memiliki kesempatan yang sama untuk menunjukkan pengetahuan dan keterampilan mereka
sebagai siswa lain yang bisa dengan mudah berhubungan dengan masalah (mungkin karena mereka
tinggal di sepanjang pantai atau di sebuah pulau), yang "yacht" masalah menantang keadilan
dari penilaian nasional.
Untuk mencegah bias yang paling penerbit uji memiliki panel ahli yang membaca item tes
hati-hati untuk menentukan apakah mereka mungkin menyinggung atau bias terhadap tertentu
kelompok, seperti perempuan dan budaya atau bahasa minoritas. Namun, metode ini adalah
terbatas karena bergantung pada subjektivitas para ahli. Kami membahas secara lebih rinci
potensi sumber standar Bias tes pada bagian isu-isu dalam standar
pengujian.
The Norm Grup
Tes mengacu-norma memungkinkan pendidik untuk membandingkan skor individu dengan yang norma
kelompok, sampel yang representatif dari populasi yang diuji dan yang memiliki skor
sebelumnya telah disusun untuk tujuan membuat perbandingan. Mari kita periksa ini
definisi secara lebih rinci. Sampel adalah bagian dari populasi (Kish, 2000). Contoh
populasi sekolah di negara Anda dapat terdiri dari pilihan acak dari 10% dari siswa
di semua sekolah. Sampel mewakili populasi yang akan diuji ketika mereka
meliputi karakteristik yang relevan dari populasi secara keseluruhan. Dalam contoh sebelumnya,
membayangkan bahwa departemen luar negeri Anda pendidikan tertarik dalam mengembangkan
standar
tes untuk menilai pembelajaran sains untuk semua siswa kelas empat di negara bagian. setelah
uji dibangun, pengembang tes akan perlu untuk mengelola untuk sampel fourthgrade
siswa di negara yang mewakili gender negara secara keseluruhan itu, etnis,
status sosial ekonomi (SES), dan komposisi regional. Jika negara Anda memiliki cukup bahkan
kerusakan jenis kelamin, kelompok norma negara harus mencakup kira-kira jumlah yang sama
anak laki-laki dan perempuan. Jika populasi siswa di negara Anda adalah 30% Afrika-Amerika,
50% Hispanik, dan 20% Anglo, maka kelompok norma juga harus menyertakan etnis
distribusi. Sebelum membaca paragraf berikutnya, pikirkan pertanyaan berikut:
Apa implikasi dari menggunakan tes standar ketika kelompok norma tidak representatif
dari populasi sasaran?

Seperti Anda mungkin sudah tahu, ketika kelompok-kelompok norma tidak mewakili siswa
Populasi yang mengambil tes, perbandingan antara nilai siswa dan orang-orang
kelompok norma tidak tepat. Inilah sebabnya mengapa guru harus hati-hati memeriksa
karakteristik kelompok norma tes standar ketika mengevaluasi kualitas mereka
dan hasil. Bayangkan skenario berikut. Sebuah distrik sekolah pedesaan di barat daya
yang sebagian besar terdiri dari siswa berpenghasilan rendah dengan kemampuan bahasa Inggris yang
terbatas
tertarik menggunakan tes prestasi tertentu untuk mengevaluasi kualitas nya
praktek pengajaran. Setelah pemberian pertama, jelas bahwa siswa di kabupaten
berkinerja jauh di bawah tingkat kelas. Sebuah pemeriksaan dekat kelompok tes itu norma
menunjukkan bahwa itu terdiri eksklusif dari siswa perkotaan dari keluarga kaya di
Northeast, populasi yang tidak mewakili distrik sekolah pedesaan.
Beberapa nilai tes standar didasarkan pada norma-norma negara, yang terstandar
nilai tes dari kelompok perwakilan mahasiswa di sebuah negara. Tes lain menggunakan norma-norma
nasional,
yang merupakan nilai tes standar dari kelompok perwakilan dari seluruh negeri.
Namun demikian, tidak semua tes standar akan menggunakan scoring norma-referenced. Bahkan,
sebagian besar
negara menggunakan scoring kriteria-direferensikan dalam sistem akuntabilitas mereka, di mana nilai
siswa
dievaluasi terhadap standar yang telah ditentukan dan bukan terhadap kinerja

kelompok norma. Sebuah negara dapat menetapkan nilai cutoff (misalnya, 70%) bahwa siswa perlu
mencapai lulus tes. Ingat dari Bab 12 bahwa para ahli merekomendasikan menggunakan criterionrather
dari penilaian norma-direferensikan untuk tes guru-dikembangkan. Kriteria-direferensikan
penilaian mempromosikan rasa siswa kompetensi, otonomi, dan kecenderungan alami mereka
untuk belajar dengan memberikan informasi tentang penguasaan pengetahuan dan keterampilan yang
relevan. Sebaliknya,
Skor norma-direferensikan (kadar pada kurva) merusak rasa siswa kompetensi,
otonomi, dan motivasi intrinsik dengan menekankan persaingan antar siswa
dan membuat satu kinerja bergantung pada kinerja orang lain.
BERSAMA BELAJAR TUGAS
Konsultasikan dengan teman sekelas dan membuat diagram Venn membandingkan dan kontras
normreferenced
dan kriteria-direferensikan tes. Sertakan karakteristik dari kedua jenis tes sebagai
serta beberapa keuntungan dan kerugian dari menggunakan masing-masing jenis.
● Bagaimana menafsirkan DISTANDARISASI UJI SKOR
Untuk beberapa tes standar, perusahaan pengujian akan mengirimkan kembali nilai siswa untuk
sekolah setelah mereka mencetak gol mereka. Bagi yang lain, guru perlu tahu bagaimana untuk
mencetak gol

tes sendiri dengan menggunakan kunci scoring dan rubrik didistribusikan dengan tes. dalam kedua
kasus, setelah nilai ujian dihitung, Anda perlu untuk menafsirkan mereka secara tepat sehingga
bahwa hasil mereka dapat menginformasikan praktik mengajar Anda. Pada bagian ini, kita membahas
beberapa
konsep statistik dasar untuk membantu Anda memahami hasil tes standar, termasuk frekuensi
distribusi, ukuran tendensi sentral dan variabilitas, dan karakteristik
dari distribusi normal. Selain itu, Anda harus tahu bagaimana menafsirkan berbeda
nilai tes standar (misalnya, mentah, persentil, kelas-setara) untuk berkomunikasi secara efektif
hasilnya kepada siswa, orang tua, guru lain, dan administrator.
Distribusi Frekuensi
Kadang-kadang nilai tes standar yang ditampilkan sebagai distribusi frekuensi, daftar
jumlah atau proporsi nilai siswa pada setiap skor tingkat atau interval. Gambar
13.4 menunjukkan contoh distribusi frekuensi pada uji hipotesis. Jika Anda melihat

pada dua kolom pertama, Anda akan melihat bahwa ada lima siswa yang diterima
skor 60 dan hanya satu siswa yang menerima skor dari 70 Kolom ketiga
menunjukkan frekuensi relatif, yang merupakan frekuensi untuk masing-masing skor dibagi dengan
jumlah siswa. Anda dapat menghitung jumlah siswa dalam distribusi ini
dengan menambahkan kolom frekuensi. Dalam contoh kita, jumlah
siswa adalah 100, sehingga frekuensi relatif dari skor 64 adalah 20%. Kolom keempat
menunjukkan frekuensi kumulatif, yang dapat dihitung dengan kumulatif
menambahkan frekuensi relatif dari skor terendah ke nilai tertinggi. dengan membaca
kolom frekuensi kumulatif, Anda dapat melihat bahwa 90% dari siswa mencetak
66 dan lebih rendah.
Sekarang kita lihat Angka 13,5 dan 13,6, yang merupakan distribusi frekuensi
dengan dua grafik yang khas. Gambar 13.5 disebut grafik garis karena mewakili
distribusi frekuensi dengan garis. Perhatikan bahwa frekuensi untuk setiap nilai yang vertikal
sumbu dan nilai yang sesuai dalam sumbu horisontal. Gambar 13.6, yang disebut bar
grafik atau histogram, merupakan frekuensi sebagai satu set garis vertikal.
Ukuran Tendensi Sentral
Selain pemahaman frekuensi skor, guru tertarik untuk mengetahui
Rata khas (yaitu, tendensi sentral) dalam distribusi skor. Ada tiga utama
ukuran tendensi sentral. Mean adalah rata-rata aritmatika dari nilai; itu
dihitung dengan menambahkan semua nilai dalam distribusi dan membaginya dengan jumlah
siswa. Jika tiga siswa memiliki skor 5, 6, dan 10, skor rata-rata akan
(5 + 6 + 10) / 3 = 7 Mean adalah ukuran tendensi sentral yang memperhitungkan
semua skor dalam distribusi.
Median adalah nilai yang ada di tengah-tengah distribusi memerintahkan skor,
yang mengapa kadang-kadang juga disebut mean geometrik. Dalam contoh sebelumnya,
skor median adalah 6 karena jatuh tepat di tengah dari tiga nilai. Anda mungkin

bertanya-tanya bagaimana menghitung median ketika jumlah total skor adalah bahkan lebih
dibandingkan angka ganjil. Dalam hal ini, karena akan ada dua daripada satu tengah
nilai, median adalah rata-rata dari dua nilai yang jatuh di tengah. Untuk nilai
dari 6, 8, 10, dan 11, median akan 9, yang merupakan rata-rata 8 dan 10 Berbeda
mean, median adalah ukuran tendensi sentral yang tidak memperhitungkan
semua skor dalam distribusi.
Ukuran tendensi sentral ketiga adalah mode, yang merupakan nilai yang paling sering
dari distribusi. Sekarang kembali ke Gambar 13.4 dan mencoba untuk menemukan modus distribusi
skor sebelum membaca paragraf berikutnya.
Anda mungkin memperhatikan bahwa modus adalah 63, karena memiliki frekuensi tertinggi di
distribusi. Mode hanya dapat digunakan jika beberapa nilai yang berulang. distribusi
adalah bimodal ketika mereka memiliki dua mode; mereka multimodal ketika mereka memiliki dua atau
lebih
mode. Keuntungan utama dari menggunakan mode adalah perhitungan yang mudah. Di sisi lain
tangan, jika dibandingkan dengan rata-rata dan median, itu adalah ukuran tendensi sentral
yang memperhitungkan paling sedikit informasi dari skor
distribusi.
Mari kita tinjau tiga langkah tendensi sentral dengan menghitung mean, median,
dan modus untuk distribusi skor berikut: 3, 3, 4, 4, 4, 5, 5, 6, 6, 7, 7, 7, 7, 8 The
berarti adalah jumlah dari nilai dibagi dengan jumlah total skor (76/14 = 5.43).
Median adalah 5,5, atau nilai tengah antara nilai-nilai ketujuh dan kedelapan dalam
memerintahkan distribusi. Modus adalah 7, skor paling diulang.
Ukuran Variabilitas
Meskipun ukuran tendensi sentral memungkinkan Anda untuk menghitung nilai khas dalam
distribusi, mereka tidak memberikan informasi tentang bagaimana nilai didistribusikan.
Apakah nilai tersebar luas (di mana kinerja siswa kasus 'sangat bervariasi)
atau mereka erat berkerumun (di mana kinerja siswa kasus 'kira-kira
sama)? Untuk menjawab pertanyaan ini, Anda dapat memeriksa dua ukuran variabilitas:
jangkauan dan deviasi standar skor. Lihatlah Gambar 13.4 lagi dan
menemukan minimum dan maksimum nilai distribusi ini sebelum membaca berikutnya
paragraf.
Anda mungkin menemukan bahwa nilai minimum adalah 60 dan maksimum adalah 70 Oleh karena itu,
kisaran distribusi ini adalah 10, yang dapat dihitung dengan mengurangkan minimum
skor dari skor maksimum dalam distribusi. Rentang ini mungkin menjadi ukuran pertama
variabilitas yang Anda anggap, tetapi bukan merupakan ukuran optimal variabilitas karena
itu mempertimbangkan hanya skor maksimum dan minimum distribusi.
Sebaliknya, standar deviasi mempertimbangkan semua nilai karena mengukur

seberapa luas nilai bervariasi sehubungan dengan Rata-rata dalam distribusi. Semakin besar
standar deviasi, semakin menyebar skor dalam distribusi. Semakin kecil
standar deviasi, semakin berkerumun nilai sekitar mean. standar
penyimpangan, bagaimanapun, adalah tidak mudah untuk menghitung sebagai jangkauan. Berikut
langkah-langkah yang
Anda harus menggunakan untuk menghitung standar deviasi untuk distribusi skor:
1 Hitung nilai rata-rata (, diucapkan "X bar") dari distribusi.
2 Kurangi mean dari masing-masing skor (X -).
3 Persegi setiap perbedaan (X -) 2
4.Tambahkan semua perbedaan kuadrat
5. Bagilah jumlah itu dengan jumlah total nilai
6 Cari akar kuadrat
Guru harus mempertimbangkan menghitung deviasi standar dari satu set nilai jika mereka
tertarik untuk mendapatkan gambaran lengkap dari kinerja kelas. Misalnya, dua
distribusi skor mungkin menghasilkan skor rata-rata sama, namun distribusi skor mungkin

berbeda jauh. Bayangkan bahwa Ms Kahn memberikan tes matematika standar yang sama untuk dua
ruang kelas
(A dan B). Setiap kelas memiliki 25 siswa, yang bisa mendapatkan potensi maksimum
skor 12 poin dalam ujian. Siswa di kelas A menerima skor berikut: 3,
3, 3, 3, 3, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 6, 6, 6, 6, 6, 8, 8, 8, 8, dan 8 Siswa di kelas
B menerima skor berikut: 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 3, 3, 3, 3, 3, 8, 8, 8, 8, 8, 12,
12, 12, 12, dan 12 Sekarang cobalah untuk menebak mana kelas akan memiliki standar deviasi terbesar
sebelum membaca paragraf berikutnya.
Anda mungkin menduga bahwa standar deviasi untuk kelas A harus
lebih kecil dari satu untuk kelas B. Bahkan, jika Anda benar-benar dihitung mean
dan deviasi standar untuk kelas A dan B, Anda akan menemukan bahwa mereka berdua memiliki
skor berarti 5,2, namun standar deviasi mereka 1.76 dan 4.25, masing-masing. The
standar deviasi jauh lebih kecil untuk kelas A karena nilai siswa yang
cukup erat berkumpul bersama-sama (menunjukkan relatif bahkan kinerja di kalangan siswa).
Sebaliknya, kelas B memiliki standar deviasi yang lebih besar karena siswa
skor tersebar terpisah, menunjukkan bahwa beberapa siswa menguasai konten tetapi yang lain
berkinerja sangat buruk pada tes. Seperti yang Anda lihat, meskipun standar deviasi
adalah konsep statistik yang mungkin terlalu abstrak atau teknis untuk berkomunikasi
kepada siswa dan orang tua, penting bagi guru untuk mengetahui seberapa erat siswa
skor yang berkerumun di sekitar nilai rata-rata tes untuk merenungkan masa depan instruksional
kebutuhan.
Distribusi normal
Distribusi normal adalah di mana sebagian besar nilai mengelompok di sekitar nilai rata-rata
dalam distribusi dan memiliki kurva berbentuk lonceng seperti yang ditunjukkan pada Gambar

13.7. Perhatikan bahwa distribusi skor simetris: setengah nilai tersebut berada di bawah
skor rata-rata dan setengah lainnya jatuh di atas. Karakteristik lain dari yang normal
distribusi adalah bahwa 68% dari nilai tersebut berada dalam 1 deviasi standar dari
berarti; 96% dari nilai tersebut berada dalam 2 standar deviasi dari mean; dan hanya
4% dari nilai tersebut berada di atas atau di bawah 2 standar deviasi dari mean. Selain itu,
ketika distribusi skor normal, rata-rata, median, dan modus yang
identik.
Untuk lebih memahami bagaimana nilai dapat diartikan dalam distribusi normal, mari kita
berasumsi bahwa Peter mendapat skor 90 pada tes standar. Jika nilai rata-rata dari semua siswa
yang mengambil tes adalah 100 dan deviasi standar 10, maka skor Petrus adalah
hanya 1 standar deviasi di bawah Unit mean. Bayangkan sekarang bahwa segala sesuatu yang lain
disimpan
sama kecuali bahwa deviasi standar dari nilai adalah 5 bukan 10 ini berarti

rata-rata. Seperti yang Anda lihat, mengetahui baik mean dan deviasi standar dari distribusi
skor akan memungkinkan Anda untuk menginterpretasikan nilai individu siswa lebih bermakna,
terutama jika nilai tes membentuk distribusi normal.
Distribusi normal biasanya ditemukan ketika jumlah nilai sangat besar,
seperti dalam kasus negara atau tes standar nasional. Skor SAT adalah contoh
dari distribusi normal, dengan rata-rata 500 dan deviasi standar 100.
Demikian juga, nilai IQ terdistribusi secara normal, memiliki rata-rata 100 dan deviasi standar
dari 15, yang berarti bahwa 68% dari semua nilai IQ jatuh dalam kisaran 85 dan 115.
Jenis Skor
Skor pada yang paling banyak digunakan tes standar dilaporkan pada formulir yang merangkum
dan menjelaskan hasil siswa. Oleh karena itu, hal ini berguna untuk belajar tentang berbagai
jenis nilai yang mungkin terjadi pada bentuk-bentuk ini. Skor mentah adalah
jumlah item yang siswa menjawab dengan benar pada tes; dengan sendirinya, hal ini
tidak memberikan informasi tentang bagaimana siswa dilakukan dibandingkan dengan siswa lain
atau betapa sulitnya tes itu. Inilah sebabnya mengapa penerbit tes menyediakan guru dengan
jenis lain dari nilai, termasuk nilai-setara, persentil, dan skor standar.
Kami membahas ini berikutnya.
Kelas-Setara Skor. Skor kelas-setara menunjukkan kinerja siswa
dalam kaitannya dengan tingkat kelas dan bulan schoolyear tersebut, dengan asumsi 10bulan schoolyear. Sebagai contoh, skor kelas-setara 4,6 menunjukkan skor yang
setara dengan bulan keenam ke kelas empat sekolah, dan kelas-setara
skor 5.0 menunjukkan skor yang setara dengan awal kelas lima.
Skor kelas-setara memiliki keuntungan menjadi mudah dimengerti. Di sisi lain
tangan, mereka dapat menyesatkan bila diartikan sebagai penempatan kelas yang sesuai
bukan kemajuan siswa. Sebuah skor di atas kelas yang sebenarnya siswa mungkin salah
ditafsirkan sebagai indikasi bahwa siswa mampu secara konsisten bekerja di sebuah

tingkat yang lebih tinggi, menunjukkan kebutuhan untuk promosi dipercepat. Misalnya, Sophia
ibu memanggil guru kelas empat putrinya, Mr Brazen, untuk konferensi. dia hanya
menerima standar nilai ujian Sophia di surat dan sangat bersemangat tentang
kemungkinan bahwa putrinya mungkin dipertimbangkan untuk kemajuan ke kelas enam
kelas. Sophia menerima skor kelas-setara 6,5 dalam ujian. Selama konferensi,
Mr Brazen menjelaskan bahwa Sophia mencetak sama dengan kelas enam akan
pada tes kelas empat; Namun, skor tidak boleh diartikan bahwa
Sophia harus di kelas enam matematika. Mengapa? Skor 6,5 kelas-setara adalah skor
bahwa siswa kelas enam khas di bulan kelima akan menerima jika ia / dia
telah mengambil tes kelas empat. Sophia tidak terkena kurikulum matematika kelas enam,
dan uji kelas empat tidak berisi konten kelas enam. Akibatnya,
semua kita dapat menyimpulkan dari 6,5 kelas-setara skor Sophia adalah bahwa prestasinya
tingkat dalam matematika yang relatif tinggi terhadap rekan-rekan kelas empat nya. Skor tersebut tidak
menyediakan
informasi tentang bagaimana dia akan menangani kurikulum matematika biasanya diajarkan
kepada siswa dengan bulan kelima kelas enam. Skor kelas-setara tidak memberikan
resep untuk penempatan kelas. Ketika skor kelas-setara jauh lebih tinggi
atau lebih rendah dari tingkat kelas siswa, mereka terutama tanda kinerja yang luar biasa.
Karena skor kelas-setara cenderung disalahartikan, ahli
merekomendasikan menggunakan jenis lain skor untuk melaporkan kinerja pada tes standar.
Persentil Skor. Skor persentil menunjukkan persentase distribusi yang
terletak pada atau di bawah nilai siswa, sehingga memberikan informasi tentang posisi skor ini
sehubungan dengan sisa nilai dalam distribusi. skor persentil
berkisar antara 1 hingga 99 Seorang mahasiswa dengan skor persentil 78 pada tes dilakukan juga
atau lebih baik dari 78% dari sampel yang terdiri kelompok norma untuk khusus ini
uji. Perhatikan bahwa persentil skor mengacu pada persentase orang daripada persentase
tanggapan yang benar.

Keterbatasan lain dari nilai persentil adalah bahwa mereka melebih-lebihkan perbedaan skor
di kisaran tengah nilai dan meremehkan skor perbedaan yang lebih rendah dan
rentang atas skor. Anda secara visual dapat melihat hal ini pada Gambar 13.8, yang menunjukkan
SAT skor mentah dan persentil yang sesuai untuk empat siswa. Seperti yang Anda lihat, Maggie,
Ralph, JR, dan Ayesha menerima skor mentah dari 530, 555, 625, dan 790, dan peringkat di
60, persentil ke-70, ke-90, dan ke-99, masing-masing. Meskipun perbedaan dalam peringkat
antara Maggie dan Ralph adalah sama dengan yang antara
JR dan Ayesha (10%), perbedaan antara nilai aktual

Maggie dan Ralph (25 poin) jauh lebih kecil dari itu antara JR
dan Ayesha (165 poin).
Standar Skor. Nilai standar dinyatakan sebagai penyimpangan dari
skor rata-rata, seperti konsep standar deviasi yang baru saja dibahas.
Nilai standar berguna karena Anda dapat mengubah nilai baku
jenis yang berbeda dari tes menjadi skala umum, sehingga memungkinkan untuk perbandingan
tes di seluruh. Mari kita lihat tiga nilai standar umum:
stanines, z-skor, dan skor-t. Stanines, yang merupakan versi pendek untuk
nines standar istilah, melaporkan hasil tes siswa pada 9-point
skala yang berkisar dari 1 sampai 9 Stanines dikembangkan oleh militer AS
untuk memberikan nilai satu digit yang dapat digunakan untuk membandingkan seluruh
tes. Stanines biasanya diartikan sebagai berikut:
• Skor dari 1, 2, dan 3 di bawah rata-rata.
• Skor 4, 5, dan 6 rata-rata.
• Skor dari 7, 8, dan 9 atas rata-rata.
Skor Stanine memiliki rata-rata 5 dan deviasi standar 2 dan
lihat skor persentil tertentu dalam distribusi normal, seperti yang ditunjukkan pada
Tabel 13.1. Perhatikan bahwa masing-masing skor stanine mewakili berbagai hasil tes.
Sebagai contoh, skor stanine dari 8 meliputi hasil tes
yang berada dalam 89 ke 95 persentil.

z-skor memberikan informasi tentang berapa banyak standar deviasi skor mentah
atas atau di bawah nilai rata-rata dari distribusi. Skor-z dihitung dengan mengurangkan
mean dari skor dan membagi dengan standar deviasi seperti yang ditunjukkan pada
rumus berikut: z-score = (X -) / SD. z-skor berguna karena mereka memungkinkan kita

untuk mengubah skor mentah dalam distribusi normal menjadi nilai setara untuk normal
distribusi yang memiliki rata-rata 0 dan standar deviasi 1, membuat skor
mudah dimengerti. Skor-z mengindikasikan seberapa jauh dan ke arah yang tertentu
Rata adalah dari nilai rata-rata seperti yang dinyatakan dalam satuan standar distribusi-nya
penyimpangan.
Jika distribusi skor memiliki rata-rata 100 dan deviasi standar 20 dan
siswa memiliki skor 110, maka skor-z untuk siswa ini akan (110-100) / 20?
0,5, yang merupakan standar deviasi 0,5 atas rata-rata. Demikian juga, jika distribusi
skor memiliki rata-rata 200 dan deviasi standar 50 dan mahasiswa memiliki skor
150, skor-z untuk siswa ini akan (150? 200) / 50 ?? 1, yang merupakan 1 standar deviasi
bawah rata-rata.
Cara lain untuk membakukan skor yang menghindari ketidaknyamanan menggunakan negatif
nomor terdiri dari mengubah z-skor menjadi skor-t. T-Rata adalah standar
Rata-rata di mana diatur ke 50 dan deviasi standar diatur ke 10; bisa
dihitung dengan rumus sebagai berikut: t-score = 50 + 10 × (z-score). Sebuah z-skor 2 dapat disamakan
untuk t-skor 70; skor mentah dari 110 dan 150 dalam contoh kami sebelumnya
sesuai dengan t-skor 55 dan 40, masing-masing. Orang tua dan siswa biasanya akan
menemukan t-skor lebih mudah untuk memahami ketika z-skor dinyatakan akan menyebabkan angka
negatif.
Tampaknya berlawanan berhubungan kinerja untuk angka negatif. kelas
Tips: Cara Menggunakan Standar Uji Skor merangkum definisi dan menggunakan untuk
skor yang berbeda dibahas dalam bagian ini.

APAKAH PERAN GURU'S
DI PENGUJIAN DISTANDARISASI?
Bagian ini mengunjungi kembali siklus penilaian diperkenalkan pada Bab 12 dengan fokus pada standar
pengujian. Ingat bahwa siklus penilaian terdiri dari empat tahap: perencanaan,

administrasi, evaluasi dan meninjau, dan mengkomunikasikan hasil penilaian
kepada pihak terkait seperti siswa, orang tua, dan administrator. Untuk kasus tertentu
pengujian standar, kita membahas bagaimana guru harus mempersiapkan siswa untuk ujian,
mengelola tes, menafsirkan nilai tes, mengkomunikasikan hasil kepada siswa dan
pengasuh, dan petunjuk rencana berdasarkan hasil tes.
VIDEO TUGAS CASE. . . Menggunakan Strategi di Kelas Anda: Mendengar
dari Spesialis (Tab 2)
Pergi ke kursus WileyPlus dan melihat video. Pikirkan tentang bagaimana Anda dapat menerapkan
sehari-hari
strategi kelas yang dibahas oleh Ibu Dean dengan administrasi tes standar
(misalnya, tujuan dan komunikasi dengan siswa dan orang tua belajar). Bersiaplah untuk
membahas strategi-strategi.
Mempersiapkan Siswa untuk Standar Pengujian
Mempersiapkan siswa untuk ujian standar memerlukan dua tanggung jawab. Pertama, guru perlu
untuk memastikan bahwa siswa telah mencapai tujuan pembelajaran, yang tergantung pada seberapa
efektif
instruksi. Kedua, guru harus memastikan bahwa siswa dapat melakukan yang terbaik untuk
menunjukkan pengetahuan dan keterampilan mereka selama pengujian standar. Untuk tujuan ini, Anda
harus meluangkan waktu untuk menjelaskan tujuan dari tes, bagaimana hasilnya akan digunakan, dan
bagaimana tes yang relevan dengan pembelajaran mereka. Dengan memberikan informasi secara
rasional, Anda akan
lebih cenderung memotivasi siswa Anda untuk melakukannya dengan baik pada tes. Misalnya, ketika
Jarett
pertanyaan Mrs Kirkland tentang perlunya membaca instruksi tes di Bayangkan Anda Apakah
Guru, ia menunjukkan kurangnya pemahaman tentang pentingnya standardisasi
prosedur administrasi tes. Sangat mungkin bahwa Jarett juga menyadari
alasan untuk mengambil tes, yang akan mempengaruhi motivasinya untuk melakukannya dengan baik di
atasnya.
Berkomunikasi sikap positif terhadap penilaian dan menghindari membuat komentar
mengenai berisiko tinggi sifat pengujian standar, yang hanya dapat meningkatkan
kecemasan dan siswa kompromi kinerja mereka. Bahkan jika Anda memiliki perasaan negatif
tentang berisiko tinggi tes, menahan godaan untuk melibatkan siswa dalam diskusi
tentang pedagogis mereka, politik, atau implikasi keuangan. Sebagai hari tes
pendekatan, memberikan siswa informasi sebanyak mungkin mengenai hari, waktu,
subyek, respon format, dan prosedur untuk mengurangi kecemasan mereka.
Sebuah cara yang efektif untuk mempersiapkan siswa untuk ujian standar adalah untuk memberi mereka
sering
tes praktek dari jenis yang sama dan format sebagaimana tes yang sebenarnya. Dengan cara ini, siswa
akan
lebih cenderung memiliki automaticity maju dalam prosedur uji-mengambil seperti mengetahui
bagaimana menanggapi pertanyaan pilihan ganda atau bagaimana untuk mengisi mencetak komputerlembar jawaban (Sax, 1989). Banyak negara menyediakan sekolah dengan tes praktek dan latihan

dirancang untuk membiasakan siswa dengan taruhan tinggi prosedur pengujian. Selain itu, Anda
dapat mengajarkan strategi uji-mengambil dasar sebagai bagian dari instruksi rutin Anda tanpa
meningkatkan
beban Anda secara signifikan. Kelas Tips: Membantu Siswa Menjadi Lebih Efektif
Test-Takers daftar beberapa bermanfaat strategi uji-mengambil.
Karena hasil tes standar dapat memiliki konsekuensi serius bagi siswa, guru,
dan sekolah, banyak sekolah juga menggunakan keterampilan program uji-mengambil (Payne, 1997).
Meskipun penelitian menemukan bahwa mengajar strategi ujian hanya memiliki dampak yang kecil
terhadap
skor siswa (Educational Testing Service, 1994; Scruggs & Lifson, 1985), strategi
instruksi dapat membantu muda dan mahasiswa rendah mencapai serta siswa yang memiliki
sedikit pengalaman uji-mengambil (Walton & Taylor, 1996-1997).

menjaga orang tua informasi. Ingat bahwa orang tua adalah mitra Anda dan kunci
untuk memotivasi siswa untuk melakukannya dengan baik. Edarkan newsletter menginformasikan orang
tua tentang
Tujuan dari uji dan penggunaan hasil, tanggal pengujian dan waktu (sehingga mereka
menghindari janji penjadwalan pada hari-hari), dan meminta dukungan mereka dalam pemantauan
penyelesaian siswa tugas yang dimaksudkan untuk membantu mereka mempersiapkan diri untuk ujian
(lihat Gambar 13.9). Ingatkan orang tua untuk mendukung anak-