Analisis item dan standardisasi tes
Analisis item dan standardisasi tes
Tujuan
- Memahami konsep dan strategi memilih item tes berdasarkan kriteria eksternal.
- Memahami konsep dan strategi memilih item tes berdasarkan konsistensi internal yang meliputi kesulitan item (indeks kesulitan item atau p) dan kemampuan mendiskriminan kelompok (indeks diskriminasi item atau D).
- Memahami konsep dan strategi memilih pengganggu item pilihan ganda (multiple-choice item distracters).
- Memahami konsep dan strategi memilih tes berdasarkan item-response curve dan item-
response theory (IRT)
• Penghitungan statistik tertentu yang harus
diteliti dengan seksama untuk menentukan apakah semua item pada tes berfungsi seperti yang seharusnya dan bagaimana cara menginterpretasikan skor tes.• Analisis item berfokus pada memfungsikan
masing-masing item sedangkan standardisasi tes berkaitan dengan interpretatif skor normatif pada tes secara keseluruhan atau pada beberapa bagian atau sub tes yang memuatnya.
- Classical Test Theory (CTT) dan Item-respons
theory (IRT) bermanfaat pada penyusunan, analisis dan penerapan tes dan tergantung pada tugas khusus.
- Setelah tes diselenggarakan dan diberi skor, baru ketahuan bahwa tes itu belum dilaksanakan dengan
baik. Ketika tes diuji coba pertama kali, tampaknya
sejumlah masalah dapat diselesaikan. - Pelaksanaan tes yang tidak baik ini merupakan salah satu alasan mengapa tes yang didistribusikan secara komersial diselenggarakan dulu pada sampel orang. Setelah itu tes diselenggarakan bagi
populasi sampel tersebut. Respon pilot sampel ini
- Apapun jenis tes – terstandardisasi atau dibuat guru, kemampuan atau kepribadian – analisis hasil post-mortem atau post hoc sama perlunya pada perusahaan obat atau perusahaan lain yang berciri manusia.
- Diantara pertanyaan yang perlu dijawab adalah :
Apakah waktu yang tersedia cukup ? Apakah peserta memahami petunjuk tes ? Apakah kondisi tes memadai ? Apakah keadaan darurat diatasi dengan tepat ? Apakah item jelas ? Apakah tes cukup wajar ? Kuesioner umpan balik sederhana yang berkaitan dengan pertanyaan ini dan pertanyaan yang relevan lain seringkali
- Analisis respons yang disampaikan oleh
kelompok orang mengenai masing-masing
item pada tes memberikan beberapa fungsi. - Tujuan utama analisis item semacam itu adalah membantu meningkatkan tes dengan memperbaiki atau menghapus item inefektif.
- Fungsi penting lain dari analisis item,
terutama analisis item pada tes pencapaian
adalah memberikan informasi diagnostik mengenai apa yang diketahui dan tidak diketahui oleh peserta tes.
Tes yang mengacu ke Kriteria dan Tes Penguasaan
- Prosedur yang digunakan dalam mengevaluasi efektivitas item tes tergantung pada tujuan tes. Misalnya, penyusun tes ingin mendesain tes yang memprediksi gejala klinis yang relevan, seperti hasil diagnosis psikoterapi atau psikiatri.
- Item pada tes akan dipilih berdasarkan pada seberapa bagus penyusun tes memprediksi gejala klinis ini.
- Penyusun tes lain berkaitan dengan menentukan seberapa banyak peserta tes mengetahui isi bidang akademi. Dalam kasus ini, kinerja diukur berdasarkan
• Tujuan pengetesan criterion-referenced (or domain
referenced) testing semacam itu bukan hanya untuk menemukan bagaimana skor yang diperoleh
seseorang dibandingkan dengan orang lain tetapi
juga untuk menentukan di mana dia berposisiterhadap tujuan kuliah atau gejala klinis tertentu.
- Jenis khusus tes yang mengacu ke kriteria yang
didisain untuk mengukur pencapaian ketrampilan
kognitif yang lingkupnya terbatas dikenal sebagai
tes penguasaan (mastery test). • Skor seseorang pada tes penguasaan diungkapkan
dengan persentase jumlah item total yang dijawab
Perbedaan Individu dan Validitas Item
- Karena sangat sulit memperoleh persetujuan pada seberapa banyak orang
seharusnya tahu mengenai subjek tertentu
atau apa yang mendasari menguasaan ini,
skor tes psikologi atau pendidikan secara tradisional telah diinterpretasikan dengan cara membandingkannya dengan skor yang diperoleh orang lain. - Tes psikologi telah direncanakan terutama untuk memeriksa perbedaan antara individu
- Orang berbeda dalam kemampuan dan kepribadian mereka dan para psikolog berusaha mengevaluasi perbedaan ini dengan berbagai jenis tes.
- Para penyusun tes professional mencoba merencanakan item yang berbeda bagi orang yang berbeda dalam kaitannya dengan kemampuan apa yang diukur .
- Untuk menilai kemanfaatan item sebagai ukuran perbedaan individu dalam kemampuan atau karakteristik kepribadian, para penguji perlu ukuran patokan eksternal karakteristik
- Validitas item untuk memprediksi keadaan kriteria eksternal ditentukan
dengan mengkorelasikan skor pada
item (nol untuk salah dan 1 untuk benar) dengan skor pada ukuran patokan. • Jenis koefsien korelasi yang berbeda-
beda digunakan untuk tujuan ini yang paling umum koefsien dua- rangkaian titik (point biserial
- Item yang memiliki korelasi serendah 0,20
berdasarkan kriteria memberikan kontribusi
untuk memprediksi item itu, meskipun koefsien lebih tinggi lebih disukai. Item yang memiliki korelasi hampir atau kurang dari 0,00 dengan criteria pasti harus diperbaiki atau dibuang. - Item yang memiliki korelasi tinggi berdasarkan criteria tetapi korelasi rendah dengan item lain adalah yang terbaik karena item itu membuat kontribusi yang lebih independen terhadap prediksi skor kriteria.
Indeks Kesulitan Item dan Indeks Diskriminasi
- Dalam kasus tes pencapaian prestasi di kelas, item dikorelasikan dengan skor total pada tes itu sendiri. Diasumsikan bahwa rangkaian item sebagai keseluruhan merupakan ukuran pencapaian yang memadai mengenai subjek, skor total sebagai kriteria dalam menentukan konsistensi internal tes.
- Prosedur jalan pintas adalah menyortir para peserta tes menjadi 3 kelompok menurut skor mereka pada tes sebagai satu keseluruhan : kelompok tinggi terdiri dari 27 % yang membuat skor tertinggi, kelompok rendah terdiri dari 27 % yang membuat skor terendah dan sisanya 46 % berada pada kelompok tengah. Jika jumlah responden
- Nilai p disebut indeks kesulitan item (item difculty indeks) dan D sebagai indeks diskriminasi item (item discrimination indeks).
- Misalkan disumsikan bahwa 50 orang mengikuti tes.
- Kemudian , kelompok tinggi dan rendah dibentuk dari bagian atas 0,27 x 50 = 14 dan 14 terendah pada skor tes total. Jika 12 orang pada kelompok tinggi dan 7 orang pada kelompok rendah lolos item A maka p = (12 + 7)/28 = 0,68 dan D = (12-7)/14 =
- Indeks kesulitan item memiliki cakupan dari 0,00
- – 1,00. Item dengan p = 0,00 adalah item yang tidak seorangpun menjawab benar dan item p = 1,00 dijawab benar oleh semua orang.
- Nilai-p optimum untuk item tergantung pada sejumlah faktor, yang mencakup tujuan tes dan jumlah opsi respons. Jika tujuan tes adalah mengidentifkasikan atau memilih hanya presentase kecil dari pelamar terbaik maka tes harus cukup sulit seperti tercermin pada nilai mean p rendah. Jika tes didesain untuk menyaring hanya sedikit pelamar yang sangat buruk maka nilai mean p tinggi adalah yang
- Nilai optimum p tergantung pada tes. Misalnya, p optimum harus cukup rendah untuk item tes yang didesain untuk menentukan penerima beasiswa atau untuk penempatan tingkat lanjut, tetapi cukup tinggi pada tes yang didesain untuk mengidentifkasikan siswa yang mengikuti program remidi. Pada tes yang didesain untuk mengukur cakupan luas kemampuan, nilai p optimum hampir memdekati 0,5.
• Nilai mean optimum p untuk tes semacam itu juga
bervariasi secara berkebalikan dengan jumlah opsi respons (k), p untuk item yang dapat diterima akan masuk ke cakupan yang cukup
- Indeks diskriminasi item (D) adalah ukuran efektivitas item dalam mendeskripsikan antara pemilik skor tinggi dan rendah pada tes.
- Semakin tinggi nilai D, semakin efektif item dalam mendeskriminasikan antara peserta tes dengan skor tinggi dan peserta tes dengan skor rendah pada tes sebagai satu keseluruhan.
- Ketika D adalah 1,00 semua peserta tes di kelompok tinggi menjawab item dengan benar dan tak seorangpun di kelompok rendah pada skor tes total menjawab item dengan benar.
- Akan tetapi, jarang D setera dengan 1,00 dan item ini
- Tetapi D dan p bukan indeks independen, dan nilai D minimum yang dapat diterima ketika p
semakin tinggi atau semakin rendah
daripada nilai optimum terutama ketika ukuran/besar kelompok pembanding tinggi dan rendah adalah besar.
Faktor yang Mempengaruhi Berfungsinya Item
- Dalam menyusun tes terstandardisasi, sekarang menjadi praktik umum untuk meneliti tiap-tiap item dan statistik yang terkait dengannya untuk
mendapatkan indikasi mengenai diskriminasi atau
bias kelompok. - Indeks statistik diferential item function (DIF) seringkali dihitung untuk mempermudah proses ini.
- Item dapat bias hanya ketika item itu mengukur sesuatu yang berbeda – karakteristik atau ciri berbeda- dalam satu kelompok dengan karakteristik
• Jika skor item mencerminkan perbedaan nyata kemampuan
atau karakteristik apa pun yang didesain untuk diukur oleh item itu, item itu secara teknis tidak bias.- Menyelenggarakan analisis item terpisah bagi tiap-tiap kelompok akan mengungkapkan keberadaan bias item
yakni apakah item tersebut mendeskriminasi dengan baik
antara pemilik skor tinggi dan rendah pada kedua kelompok tersebut. - Analisis item menghasilkan perbaikan signifkan terhadap efektivitas tes. Indeks diskriminasi item secara khusus merupakan ukuran yang cukup bagus mengenai kualitas item.
• Bersama dengan indeks kesulitan ( p ), D dapat digunakan
sebagai peringatan bahwa ada yang salah pada item
- Bank item semacam itu digunakan tidak hanya oleh penyusun tes tradisional professional, tetapi juga
diberikan sebagai bahan tambahan
pada sejumlah buku teks yangdigunakan sebagai tes praktek atau
menjadi kumpulan item untuk menyusun tes di kelas.
Konsistensi Internal Versus Validitas Internal
- Konsep validitas item biasanya mengacu ke hubungan item dengan kriteria eksternal. Sebaliknya, D adalah ukuran hubungan skor item dengan kriteria internal – skor total – bukan dengan kriteria eksternal.
- Memilih item yang berdasar statistik D menghasilkan
jenis tes yang berbeda daripada item yang terdiri atas
item yang dipilih berdasar korelasi tinggi dengan kriteria eksternal. - Kadangkala kombinasi dua startegi memadai : tes gabungan disusun dari subtes yang saling memiliki korelasi rendah dan korelasi yang substansial dengan
Item Tes yang Mengacu ke Kriteria
- Indeks kesulitan dan indeks diskriminasi juga dapat dihitung berdasar item tes yang mengacu ke kriteria yang didesain untuk menentukan posisi peserta tes terhadap tujuan pendidikan yang telah ditetapkan.
- Dalam kasus ini, peserta tes dibagi menjadi 2 kelompok : kelompok atas yang terdiri dari peserta U yang skor tes totalnya memenuhi kinerja yang dapat diterima yang telah dirancang berdasar kriteria dari peserta tes L
Analisis terhadap Pengganggu
• Analisis item pilihan-ganda secara tradisional telah mulai
dengan penghitungan indeks kesulitan dan indeks diskriminasi untuk tiap-tiap item.- Analisis kedua berkaitan dengan berfungsinya k-1 opsi (pengganggu atau distracter) salah untuk tiap-tiap item. Indeks diskriminasi item (D) memberikan informasi pada berfungsinya gangguan secara keseluruhan.
- D positif berarti pada peserta tes pada kelompok
atas (pada skor tes total) cenderung memilih jawaban dengan benar sedangkan yang ada di kelompok bawah cenderung memilih satu pengganggu besarnya D menunjukkan tingkat kecenderungan ini.
Kurva Karakteristik Item
- Nilai p dan D yang dapat diterima tidak menjamin bahwa item berfungsi dengan tepat di semua level kinerja tes.
- Agar sangat efektif, proporsi orang yang menjawab item tes dengan tepat harus meningkat dengan mantap seiring dengan peningkatan skor total pada tes atau subtes.
- Apakah item tes berfungsi dengan cara ini dapat ditentukan dari item characteristic curve (ICC). Dalam menyusun ICC, proporsi responden yang member jawaban kunci diplot terhadap skor mereka berdasarkan kriteria internal (misalnya skor tes total) atau criteria eksternal seperti pencapaian atau kinerja pekerjaan.
- Level kesulitan (b) adalah skor criteria yang 50 % peserta tes member jawaban benar (berdasar kunci); indeks diskriminasi (a) adalah tingkat kemiringan (slope) kurva respons-tem pada poin 50 %.
- Misalkan dari dua ICC yang diplot pada Gambar 4.1,
nilai 0,5 pada sumbu vertical berhubungan dengan
skor total 68 pada kasus item 1 dan 77 pada kasus
item 2. - Akibatnya item 2 lebih sulit daripada item 1. Akan
tetapi, ICC item 1 memiliki kemiringan lebih curam
dari pada item 2 , maka item 1 mendiskriminasi dengan lebih baik daripada item 2 antara pemilik
Item response Theory
- Metode ini pertama kali mengembangkan teori mengenai cara berfungsinya item berdasarkan
pengetahuan mengenai kemampuan
atau ciri kepribadian (Trait). - Metode ini membandingkan respons sesungguhnya terhadap item untuk menentukan seberapa bagus berfungsinya item. Jadi item
sesungguhnya dibandingkan dengan
• Seperti digambarkan pada Gambar 4.2, bentuk kurva
respons-item bervariasi mengikuti nilai parameter a
dan b. Kedua kurva pada gambar ini disusun dengan fungsi dua-parameter pada rumus 4.5.- Pada kurva P, parameter kesulitan (b) adalah 1,00
dan parameter diskriminan (a) adalah 0,5; pada
kurva Q, b = 0,25 dan a = 0,75. - Catat bahwa b adalah nilai (titik pada sumbu horizontal) yang berhubungan dengan P( ) = 0,5 dan a adalah kemiringan kurva pada P( ) – 0,5. Pada model 3 parameter, b adalah nilai P( ) yang berhubungan dengan 0,5 ( c + 1) dengan c adalah
titik persilangan antara kurva respons-item dengan
- Skor pada kontinum, kemampuan tersembunyi (latent ability
continuum) dinyatakan sebagai unit skor standard (z ), tetapi pada penerapan sebagian besar pendidikan,
skor z diubah ke skala yang memiliki
mean 300 dan deviasi standard 50.- Pada praktek sesungguhnya, parameter item dan skor kemampuan tersembunyi (latent ability score)
- Masalahnya adalah mencari kurva respons-item yang paling cocok dengan respons terhadap tiap-tiap item.
- Pencarian ini melibatkan prosedur yang mungkin- maksimum secara iterative dengan mengasumsikan nilai awal tertentu untuk parameter itemnya dengan menghitung P( ) yang berhubungan dengan berbagai nilai , membandingkan respons-item hasil prediksi dengan respons-item sesungguhnya dan melanjutkan proses sampai solusi terbaik dapat diraih.
- Proses estimasi parameter item membutuhkan respons banyak peserta tes yang mewakili populasi potensi peserta tes kira-kira 2.000 untuk model tiga parameter dan 1.500 untuk model satu parameter (Rasch).
- Tidak seperti metodologi pengetesan tradisional, yang
mengacaukan antara diskriminasi dan kesulitan tes pada
sampel tertentu orang yang dites, pada IRT makaparameternya adalah, setidaknya dalam teori, independen
terhadap sampel tes. - Sifat IRT yang menarik lainnya, invariance kemampuan tes dengan respons terhadap item yang digunakan untuk mengestimasinya, berakar pada proses pengestimasian .
Fitur IRT ini berarti bahwa tes pada level kesulitan manapun dapat dikelola untuk menentukan posisi seseorang pada berbagai level kemampuan tersembunyi (latent ability continuum).
- IRT telah dipergunakan untuk berbagai tujuan, yang meliputi penyusunan tes, kalibrasi skor tes untuk menyediakan kerangka acuan guna
Standardisasi dan Norma Tes
- Fitur inti pada sebagian besar tes psikologi adalah bahwa skor individu harus dibandingkan dengan beberapa kelompok normative. Fitur ini memungkinkan kita harus menginterpretasikan makna skor.
- Misalnya, kita tahu bahwa seseorang mendapat skor tinggi pada introversi karena orang lain merespon pada item sama menguasai sedikit jumlah item yang berkaitan dengan introversi.
- Untuk menyelesaikan tugas ini, tes, inventori
(kumpulan soal tes), skala peringkat atau peralatan
- Tes terstandardisasi apapun memiliki petunjuk standard mengenai
penyelenggaraan dan pemberian skor
yang harus benar-benar diikuti sehingga hanya menyisakan ruang kecil untuk interpretasi dan bias pribadi. - Standardisasi juga melibatkan pengelolaan tes tes terhadap sampel orang dalam jumlah besar (standardisasi sampel) yang dipilih sebagai wakil dari populasi sasaran
• Tujuan utama standardisasi tes adalah untuk
menentukan distribusi skor mentah padasampel terstandardisasi (kelompok norma).
- Skor mentah yang diperoleh tersebut kemudian dikonversikan ke beberapa bentuk skor turunan atau norma.
• Dalam mengevaluasi anak cacat, kadangkala
perlu mengelola tes di luar level (out-of-level
test) yang didesain untuk level usia dan level grade di bawah orang yang
Memilih Sampel Terstandardisasi
- Agar berfungsi secara efektif pada interpretasi skor tes, norma harus sesuai dengan kelompok atau individu yang dievaluasi.
- Kapanpun skor tes dikonversikan dengan mengacu ke tabel norma, penting untuk membuat catatan mengenai karakteristik sampel (usia, jenis kelamin, etnik, pendidikan , status sosioekonomi, wilayah geograf) dari kelompok norma tertentu dan memasuk ini ke dalam semua komunikasi mengenai kinerja
- Ciri pemilihan sampel terstandardisasi dari populasi bervariasi dari pengambilan sampel secara acak sederhana (simple random sampling) sampai strategi
pemilihan sampel yang lebih rumit seperti pengambilan
sampel secara cluster (cluster sampling). - Pengambilan sampel secara cluster lebih ekonomis daripada pengambilan sampel secara acak terstratifkasi dan lebih mungkin dari pada pengambilan sampel secara acak sederhana dalam menghasilkan sampel yang mewakili populasi sasaran.
- Norma yang dipublikasikan pada buku petunjuk bermanfaat untuk membandingkan skor peserta tes dengan skor sampel orang dari berbagai lokasi, kadangkala cross section dari seluruh bagian Negara.
Norma Usia dan Kelas
- Norma usia (ekuivalen usia , usia pendidikan) merupakan skor median pada tes yang
diperoleh orang pada usia kronologis tertentu;
norma kelas (grade norm) (ekuivalen kelas)adalah skor median yang diperoleh siswa pada
level kelas tertentu. - Norma usia dan norma kelas memiliki
kelemahan yang serius. Masalah utama adalah
pertumbuhan karakteristik kognitif, psikomotorik atau afektif tidak seragam pada seluruh cakupan usia atau kelas.
- Norma usia dan kelas secara salah menyiratkan bahwa laju peningkatan
kemampuan yang dites adalah konstan dari
tahun ke tahun karena itu penggunaan dua
norma itu sering dihalangi oleh para ahli di bidang pengukuran pendidikan. • Norma yang unit pengukuran kurang variabel
sepanjang cakupan skor lebih disukai.• Karena kemudahan penggunaan, norma usia
dan norma kelas terus digunakan pada level
SD dimana unit-unit pertumbuhan hampir
Normal Persentil
- Norma persentil berisi tabel persentase yang berkaitan dengan skor mentah tertentu. Skor mentah ini disebut sebagai persentil dan persentase kelompok norma yang masuk ke bawah skor tertentu merupakan rentang persentil (persentil range) skor ini.
- Peringkat persentil (persentil rank) cukup mudah dihitung dan dipahami oleh karena itu lebih populer daripada norma standard.
- Laporan psikologi yang berusaha keras untuk menekankan kejelasan akan berkata sesuatu seperti “John mendapat skor pada peringkat rata-rata tinggi atau dalam persentil ke-85. Ini berarti bahwa dia mendapat
Norma-skor Standard
- Tidak seperti peringkat persentil, skor
standard menghadirkan pengukuran
pada skala interval. - Norma skor standard adalah skor
terkonversi yang memiliki mean dan
standard deviasi yang diinginkan. Adabanyak skor standard yang berbeda,
meliputi skor z, skor Z, skor CEEB, skor
IQ deviasi, skor stanine, skor T dan
Skor Z
• Kenyataan bahwa skor z mungkin angka desimal
negatif atau positif menciptakan beberapa kesulitan dalam menggerakkan angka itu.• Masalah dapat diselesaikan dengan mengalikan
skor z dengan angka konstan dan menambah angka konstan lain pada hasilnya.- Mengalikan z dengan 10, menambah 50 pada
hasil dan membulatkan hasil ke angka terdekat
menghasilkan skor Z. Mean serangkaian skor Z
adalah 50 dan standard deviasi adalah 10 tetapidistribusi frekuensi skor Z memiliki bentuk yang
Skor CEEB
- Pada suatu saat skor satu waktu CEEB pada tes yang dipublikasikan oleh College Entrance Examination Board (CEEB) ditentukan dengan mengalikan skor z yang berkaitan dengan 100 dan menambah 500 ke hasilnya. Misalnya, ini dilakukan pada skor mentah pada Scolastic Aptitude Test (SAT) yang diselenggarakan pada 1941, menghasilkan distribusi baru yang memiliki mean 500 dan deviasi standard 100.
- Akan tetapi, sesudah itu, skor yang diperoleh siswa dengan mengambil SAT tidak diubah dengan cara ini. Melainkan, untuk menyakinkan unit skor konstan dalam rangka membandingkan hasil tes dari tahun ke tahun
Skor Wechsler
- Skor mentah pada subtes skala kecerdasan Wechsler diubah agar memiliki mean 10 dan deviasi standard 3.
- Namun, skor verbal, Kinerja dan Skala penuh (deviasi IQ) pada tes Wechsler dikonversikan ke distribusi yang memiliki mean 100 dan deviasi
Skor Standard yang dinormalisir
- Skor z dapat diubah menjadi skor
n dinormalisir yang memiliki mean dan deviasi standard yang diinginkan.
• Skala skor lain adalah skala stanine yang
diilustrasikan dengan skala ketiga dari bawah. Pada skala standard dinormalisir ini, yang memiliki mean 5 dan deviasi standard sekitar 2, ada sembilan
- Rentang ini didesain dari angka 1 – 9 dan seperti diperlihatkan pada gambar, persentase tertentu dari distribusi skala normal berada dalam interval yang diwakili oleh stanine tertentu. Akan tetapi, skala stanine bukanlah skala standard sesungguhnya, karena stanine pertama dan kesembilan terbuka di bagian akhir.
- Salah satu keunggulan skor statine adalah bahwa skor tersebut mewakili rentang bukan titik tertentu. Keunggulan ini membantu melawan kecenderungan untuk memandang skor tes sebagai ukuran perbedaan individu
Tes Penyamaan (Equating Tests)
• Skor yang dibuat pada satu bentuk, sangat serupa dengan
skor peserta tes yang sama pada bentuk pertama.- Proses penyamaan atau lebih tepatnya membuat perbandingan, dua tes dengan level kesulitan sama (misalnya kelas sama) disebut sebagai penyamaan horizontal (horizontal equating).
- Penyamaan juga dapat dilakukan secara vertikal, seperti ketika skor pada dua tes yang memiliki level kesulitan berbeda (mis. Kelas berbeda) dipersamakan.
- Secara umum, proses penyemaan melibatkan menjangkarkan tes ke tes umum atau kumpulan item,
• Pembahasan sebelumnya mengenai item-response theory menunjukkan
bahwa teori ini mengkalibrasikan serangkaian item tes berdasar pada bagaimana cara item itu harus dilakukan secara teoritis.
• Lalu teori ini membandingkan respons item sesungguhnya untuk melihat
tingkat seberapa respons ini mendekati kinerja teoritis (biasanya diwakili dengan skor standard pada sumbu horizontal kurva respons-item).- Pendekatan IRT pada penyamaan melibatkan temuan equation linear yang mengubah parameter item (indeks kesulitan dan indeks diskriminasi) dari satu bentuk tes ke bentuk kedua. Proses ini disebut sebagai kaitan (linking).
- Prosedur linking ini mengharuskan bahwa dua tes berbagi beberapa
item umum (jangkar/anchor) atau bahwa subtes peserta tes mengikuti
kedua tes atau tes ketiga yang mengukur ciri yang sama. - Prosedur penyamaan pada IRT itu ekonomis pada pengambilan sampel item, di mana sub-rangkaian item yang dipilih secara acak dikelola ke kelompok orang berbeda yang dipilih secara acak, juga dilibatkan.
TERIM
AKASIH